適合度検定 |
PROC UNIVARIATEステートメントでNORMALオプションを指定した場合や、HISTOGRAMステートメントで当てはめたパラメトリックな分布を要求した場合、分析変数の値が指定した理論分布からの無作為抽出であるという帰無仮説の適合度検定が計算されます。例4.22を参照してください。
NORMALオプションを指定した場合、これらの検定は"Tests for Normality"というラベルの出力テーブルに要約され、次の検定が含まれます。
Shapiro-Wilk検定
Kolmogorov-Smirnov検定
Anderson-Darling検定
Cramér-von Mises検定
Kolmogorov-Smirnov 統計量、Anderson-Darling統計量およびCramér-von Mises統計量は、経験分布関数(EDF)に基づきます。ただし、指定した分布で特定の組み合わせのパラメータを推定する場合に、EDF検定がサポートされないことがあります。使用できるEDF検定の一覧は、表4.114を参照してください。帰無仮説を棄却するかどうかは、適合度検定に関連付けられている値を調べることにより判断できます。値が事前に定義された基準値()より小さい場合は、帰無仮説を棄却し、指定した分布からのデータではなかったと判断します。
分散分析法の正規性の仮定を検定する場合は、正規性の統計的検定を単独で使用するよう注意します。帰無仮説を棄却する検定力(検定の検出力)は、標本サイズに応じて高くなります。標本サイズが大きくなるほど、正規性からの小さな乖離を検出できます。正規性からの小さな偏差は分散性の分析検定の妥当性にはそれほど大きく影響しないため、他の統計量やプロットを調査して正規性の最終評価を行うことが重要です。歪度および尖度の測定値と、PLOTSオプション、HISTOGRAMステートメント、PROBPLOTステートメント、QQPLOTステートメントで得られるプロットが大変役立ちます。標本サイズが小さい場合、重要な正規性からの大きな乖離の検出力が低い場合があります。このような偏差の検定力を高くするには、よく使用される0.05の有意水準ではなく、0.15や0.20などの高い有意水準を使用する必要がある場合があります。この場合も、プロットや他の統計量を調べると、正規性からの偏差の大きさの評価に役立ちます。
標本サイズが2000以下の場合にNORMALオプションを指定すると、PROC UNIVARIATEはShapiro-Wilk統計量 (標本サイズに依存することを強調するためにとも表記されます)を計算します。統計量は、分散の通常の修正平方和推定量に対する、(順序統計量の線形結合の2乗に基づく)分散の最良推定量の比率です(ShapiroおよびWilk; 1965)。が3より大きい場合、順序統計量の線形結合を計算するための係数は、Royston (1992)法により近似されます。統計量は、常に0より大きく1以下です。
の値が小さい場合、正規性の帰無仮説は棄却されます。は片寄りの大きい分布です。一見すると大きいの値(0.90など)が小さいと見なされ、帰無仮説の棄却が導き出される場合があります。値(観測値以下の統計量を取得する確率)の計算方法はに依存します。の場合、の確率分布は既知で、値の決定に使用されます。の場合、正規化変換は次のように計算されます。
、およびの値は、シミュレーション結果から得られるの関数です。の値が大きい場合は正規性から乖離していることを示し、統計量はほぼ標準正規分布であることから、この分布を使用しての場合の値が決定されます。
パラメトリックな分布を当てはめた場合、PROC UNIVARIATEは経験分布関数(EDF)に基づく一連の適合度検定を出力します。EDF検定は検出力が高く、ヒストグラムの中間点によって検定結果が変わらないなどの点で従来的なカイ2乗検定より優れています。詳細は、D’Agostino and Stephens (1986)を参照してください。
経験分布関数は、個の独立するオブザベーションに対し、一般的な分布関数で適宜されます。オブザベーションは、のように昇順に表記します。経験分布関数は次のように定義されます。
は、オブザベーションごとに高さのステップを取る関数です。この関数は分布関数を推定します。任意の値で、は以下の比率で、は以下のオブザベーションの確率です。EDF統計量は、との間のディスクレパンシを測定します。
EDF統計量の計算式では、確率積分変換を利用します。がの分布関数である場合、乱数変数は0~1の間の均等な分布になります。
個のオブザベーションがある場合、値は、次の3つのセクションの説明にあるように、変換を適用して計算されます。
PROC UNIVARIATEでは、次の3つのEDF検定を行うことができます。
Kolmogorov-Smirnov
Anderson-Darling
Cramér-von Mises
次のセクションで、これらのEDF統計量の計算式の定義を示します。
Kolmogorov-Smirnov統計量()は次のように定義されます。
Kolmogorov-Smirnov統計量は、EDF統計量の上限値クラスに属します。この統計量のクラスは、との垂直方向の最大差に基づきます。
Kolmogorov-Smirnov統計量は、およびの最大値として計算されます。はEDFが分布関数より大きい場合のEDFと分布関数の間の最大垂直距離、はEDFが分布関数より小さい場合の最大垂直距離です。
PROC UNIVARIATEでは、修正済みKolmogorov 統計量を使用して、平均および分散が標本と等しい正規分布に対してデータを検定します。
Anderson-Darling統計量およびCramér-von Mises統計量は、EDF統計量の2次クラスに属します。この統計量のクラスは、2乗差に基づきます。2次統計量の一般形は次のとおりです。
関数は2乗差を重み付けします。
Anderson-Darling統計量()は次のように定義されます。
ここで、重み関数は です。
Anderson-Darling統計量は次のように計算されます。
Cramér-von Mises統計量()は次のように定義されます。
ここで、重み関数は です。
Cramér-von Mises統計量は次のように計算されます。
EDF検定統計量が計算されると、PROC UNIVARIATEは関連する確率値(値)を計算します。
Gumbel、逆ガウス、一般化パレート、レイリー分布の場合、PROC UNIVARIATEは、推定した分布から再サンプリングすることによって、関連する確率値(値)を計算します。デフォルトでは、500個のEDF検定統計量が計算され、指定した(当てはめた)分布のEDF検定統計量と比較されます。標本数は、EDFNSAMPLES=nの設定によって制御できます。たとえば、5000個のシミュレーションに基づく、Gumbel分布の適合度検定の値を要求するには、次のステートメントを使用します。
proc univariate data=test; histogram / gumbel(edfnsamples=5000); run;
ベータ、指数、ガンマ、対数正規、正規、べき関数、Weibull分布の場合、UNIVARIATEプロシジャは、D’AgostinoおよびStephens (1986)によって示されたものと似た確率水準の内部テーブルを使用します。値が2つの確率水準の間の場合、線形補間を使用して確率値が推定されます。
確率値は、既知のパラメータと分布に対して推定されたパラメータに依存します。表4.114は、さまざまな当てはめた組み合わせに対して、EDF検定を使用できるかどうかをまとめたものです。
分布 |
パラメータ |
使用可能な検定 |
||
---|---|---|---|---|
いき値 |
尺度 |
形状 |
||
ベータ |
既知 |
既知 |
既知 |
すべて |
既知 |
既知 |
未知 |
すべて |
|
指数 |
既知 |
既知 |
すべて |
|
既知 |
未知 |
すべて |
||
未知 |
既知 |
すべて |
||
未知 |
未知 |
すべて |
||
ガンマ |
既知 |
既知 |
既知 |
すべて |
既知 |
未知 |
既知 |
すべて |
|
既知 |
既知 |
未知 |
すべて |
|
既知 |
未知 |
未知 |
すべて |
|
未知 |
既知 |
既知 |
すべて |
|
未知 |
未知 |
既知 |
すべて |
|
未知 |
既知 |
未知 |
すべて |
|
未知 |
未知 |
未知 |
すべて |
|
対数正規 |
既知 |
既知 |
既知 |
すべて |
既知 |
既知 |
未知 |
および |
|
既知 |
未知 |
既知 |
および |
|
既知 |
未知 |
未知 |
すべて |
|
未知 |
既知 |
既知 |
すべて |
|
未知 |
既知 |
未知 |
すべて |
|
未知 |
未知 |
既知 |
すべて |
|
未知 |
未知 |
未知 |
すべて |
|
正規 |
既知 |
既知 |
すべて |
|
既知 |
未知 |
および |
||
未知 |
既知 |
および |
||
未知 |
未知 |
すべて |
||
べき関数 |
既知 |
既知 |
既知 |
すべて |
既知 |
既知 |
未知 |
すべて |
|
Weibull |
既知 |
既知 |
既知 |
すべて |
既知 |
未知 |
既知 |
および |
|
既知 |
既知 |
未知 |
および |
|
既知 |
未知 |
未知 |
および |
|
未知 |
既知 |
既知 |
すべて |
|
未知 |
未知 |
既知 |
すべて |
|
未知 |
既知 |
未知 |
すべて |
|
未知 |
未知 |
未知 |
すべて |