FREQプロシジャ

出力データセット

FREQプロシジャは、その他の統計およびレポート作成プロシジャで使用できる、2種類の出力データセットを作成します。これらのデータセットを要求するには次のようにします。

  • TABLESステートメントのOUT=オプションを指定します。これにより、度数表やクロス集計表のカウントやパーセンテージを含む出力データセットが作成されます。

  • OUTPUTステートメントを指定します。これにより、統計量を含む出力データセットが作成されます。

FREQプロシジャは出力データセットを表示しません。出力データセットを表示するには、PRINTプロシジャ、REPORTプロシジャ、またはその他のSASレポート作成ツールを使用します。

これらの2種類のデータセットに加えて、ODS (Output Delivery System)を使用することで、任意のFREQプロシジャ出力の要素からSASデータセットを作成できます。詳細は、ODSテーブル名のセクションを参照してください。

TABLESステートメントの出力データセットの内容

TABLESステートメントのOUT=オプションは、最後の表の要求における変数値(または表セル)の組み合わせごとに1つのオブザベーションを含むSASデータセットを作成します。デフォルトでは、各オブザベーションには、特定の表セルの度数やパーセンテージが含まれます。入力データセットに欠損値が含まれている場合、出力データセットにも、欠損値の度数を持つオブザベーションが含まれます。出力データセットには次の変数が含まれます。

  • BY変数

  • 表要求変数。表要求A*B*C*DにおけるABCDに相当します。

  • COUNT。表セルの度数を含む変数です。

  • PERCENT。表セルのパーセンテージを含む変数です。

二元表または多元クロス表に対してTABLESステートメントでOUTEXPECTオプションを指定すると、出力データセットには期待度数も含められます。二元表または多元クロス表に対してOUTPCTオプションを指定すると、出力データセットには行、列、表のパーセンテージも含められます。追加される変数は次のとおりです。

  • EXPECTED。期待度数を含む変数です。

  • PCT_TABLn元表(n > 2)の場合、二元表度数のパーセンテージを含む変数です。

  • PCT_ROW。行度数のパーセンテージを含む変数です。

  • PCT_COL。列度数のパーセンテージを含む変数です。

一元表に対してTABLESステートメントでOUTCUMオプションを指定すると、出力データセットには累積度数と累積パーセンテージも含められます。追加される変数は次のとおりです。

  • CUM_FREQ。累積度数を含む変数です。

  • CUM_PCT。累積パーセンテージを含む変数です。

OUTCUMオプションは、二元表や多元クロス表には効果がありません。

次のPROC FREQステートメントは、度数とパーセンテージを含む出力データセットを作成します。

    proc freq;
       tables A A*B / out=D;
    run;

出力データセットDには、行がAで列がBの表の度数とパーセンテージが含まれます。この表は、TABLESステートメントにリストされた最後の表要求に対応します。Aが2つの水準(1と2)を持ち、Bが3つの水準(1、2、3)を持ち、かつゼロまたは欠損値の表セルが存在しない場合、出力データセットDには、6個のオブザベーション(ABの各水準の組み合わせごとに1つのオブザベーション)が含まれます。最初のオブザベーションはA=1およびB=1に対応、2番目のオブザベーションはA=1およびB=2に対応、という具合になります。このデータセットには、変数COUNTおよびPERCENTが含まれます。COUNTの値は、ABの水準の指定の組み合わせを含むオブザベーションの数になります。PERCENTの値は、そのABの組み合わせを含むオブザベーションの合計数になります。

FREQプロシジャが複数の変数値を同じフォーマットされた水準へと結合する場合、出力データセットには、フォーマットされた水準の最小内部値が含まれます。たとえば、変数Xが値1.1、1.4、1.7、2.1、2.3を持つとします。この場合、PROC FREQステートメント内で次のステートメントをサブミットすると、

    format X 1.;

FREQプロシジャのステップではXの度数表にリストされるフォーマットされた水準は、1と2になります。度数カウントを含む出力データセットを作成すると、Xの水準の内部値は1.1と1.7になります。出力データセットを表示する場合にXの内部値を報告するには、Xの出力形式として3.1を使用します。

OUTPUTステートメントの出力データセットの内容

OUTPUTステートメントは、FREQプロシジャにより計算される統計量を含むSASデータセットを作成します。表3.7に、出力データセット内に保存可能な統計量を示します。含めたい統計量を特定するには、output-optionsを指定します。詳細は、OUTPUTステートメントの説明を参照してください。

複数のTABLES ステートメントを指定した場合や、TABLESステートメントで複数の表を要求した場合、OUTPUTデータセットの内容は最後のTABLESステートメントに対応します。

一元表または二元表の場合、出力データセットには、当該表に関して要求された統計量を格納する1つのオブザベーションが含められます。多元クロス表の場合、出力データセットには、多元クロス集計の二元表(層)ごとに1つのオブザベーションが含められます。多元クロス表で要約統計量を要求すると、出力データセットには、層全体の要約統計量を格納する1つのオブザベーションも含められます。BYステートメントを使用すると、出力データセットには、BYグループごとに1つのオブザベーション(一元表や二元表の場合)またはオブザベーションのセット(多元クロス表の場合)が含められます。

出力データセットには次の変数が含まれます。

  • BY変数

  • 多元クロス表の層を識別する変数。表要求A*B*C*DにおけるABに相当します。

  • 指定された統計量を含む変数

指定の推定値や検定統計量に加えて、出力データセットには、標準誤差、信頼限界、p値、自由度のような関連付けられている値も含められます。

FREQプロシジャで出力データセット内の統計量の変数名を作成するには、output-option名を下線で囲んで指定します。標準誤差、信頼限界、p値、自由度に対応する変数名を作成するには、output-option名を、関連する値を識別する接頭辞を組み合わせて指定します。表3.20に、これらの接頭辞とその説明を示します。

表3.20: 出力データセット変数名の接頭辞

接頭辞

説明

E_

漸近標準誤差(ASE)

L_

下側信頼限界

U_

上側信頼限界

E0_

帰無仮説ASE

Z_

標準化された値

DF_

自由度

P_

p値

P2_

両側のp

PL_

左側のp

PR_

右側のp

XP_

正確なp

XP2_

正確な両側のp

XPL_

正確な左側のp

XPR_

正確な右側のp

XPT_

正確な点確率

XMP_

正確なmid p

XL_

正確な下側信頼限界

XU_

正確な上側信頼限界


たとえば、 OUTPUTステートメントでPCHI output-optionを指定すると、出力データセットにはPearsonカイ2乗検定が含められます。Pearsonカイ2乗統計量、その自由度、p値の変数名は、それぞれ_PCHI_DF_PCHIP_PCHIになります。SAS/STAT 8.2よりも前に出力データセットに追加された変数については、接頭辞にoutput-option名を加えた長さが8文字を超える場合、FREQプロシジャにより変数名が8文字に切り捨てられます。