この例では、子供の髪の色(例3.1のデータを使用)が2つの地域に関して多項分布に従っているかどうかを調べます。仮定される髪の色の分布は、30%がfair、12%がred、30%がmedium、25%がdark、3%がblackになります。
この仮説を地域別に検定するために、Region
に基づいてデータを並べ替えます。続いて、FREQプロシジャはBYステートメントを使用して、BYグループ(Region
)ごとに別々の表を作成します。ORDER=DATAオプションは、入力データセット内の順番に従って変数値(髪の色)を度数表に配置するよう指示します。
TABLESステートメントは、髪の色の度数表を要求します。NOCUMオプションが指定されているため、累積度数および累積パーセンテージは表示されません。
CHISQオプションは、Hair
の度数表に対するカイ2乗適合度検定を要求します。TESTP=オプションは、カイ2乗検定での仮説となる(または検定)パーセンテージを指定します。リストされているパーセンテージの数は表水準の数に等しく、パーセンテージの合計は100%になります。TESTP=オプションに指定した各パーセンテージは、対応する変数水準が度数表に現れる順番と同じ順番でリストされます。
PLOTS=オプションでは偏差図を要求しています。同オプションをCHISQオプションと関連付けることで、検定度数からの相対偏差が表示されます。TYPE=DOTPLOT plot-optionは、デフォルトの棒グラフではなく散布図を要求します。プロットを作成する前に、ODS Graphicsを有効にする必要があります。 これらのステートメントが生成する出力を出力3.3.1から出力3.3.4に示します。
proc sort data=Color; by Region; run; ods graphics on; proc freq data=Color order=data; tables Hair / nocum chisq testp=(30 12 30 25 3) plots(only)=deviationplot(type=dotplot); weight Count; by Region; title 'Hair Color of European Children'; run; ods graphics off;
出力3.3.1に、Region 1の度数表とカイ2乗検定を示します。この度数表にリストされている変数値(髪の色)の順番は、データセット内にそれらが現れる順番と同じになります。"Test Percent"列には、カイ2乗検定で仮定されたパーセンテージがリストされます。TESTP=オプションに指定したパーセンテージの順番が、変数水準の順番と正確に一致していることを確認してください。
出力3.3.2に、Region 1の偏差図を示します。これは、仮定された値からの相対偏差を表すものです。ある水準の相対偏差は、観測されたパーセンテージと仮定された(検定)パーセンテージの差を検定パーセンテージで割った値になります。 偏差図にはデフォルトでカイ2乗のp値が表示されます。これを表示しないようにするには、NOSTATS plot-optionを指定します。
出力3.3.3および出力3.3.4に、Region 2の結果を示します。FREQプロシジャは、各地域のカイ2乗統計量を計算します。Region 2では水準0.05でカイ2乗検定が有意となります(p=0.0003)が、Region 1では有意となりません。これは、Region 2では仮定されたパーセンテージからの有意な逸脱があることを示しています。