FREQプロシジャ: 連関性の統計量 :: Base SAS(R) 9.3プロシジャガイド: 統計プロシジャ

連関性の統計量

TABLESステートメントでMEASURESオプションを指定すると、FREQプロシジャは、分割表の行変数と列変数の間の連関性を記述する複数の統計量を計算します。行変数Xが増加するにつれ列変数Yが増加する傾向にあるかどうかを検討する順序関連性の指標としては、ガンマ、Kendallのtau- $\text{[math]}$ 、Stuartのtau- $\text{[math]}$ 、Somersの $\text{[math]}$ があります。これらの統計量は順序変数に適しており、これらの統計量によりオブザベーションのペアを一致または不一致として分類できます。オブザベーションでXの値が大きいほどYの値も大きくなる場合、そのペアは一致となります。オブザベーションでXの値が大きいほどYの値が小さくなる場合、そのペアは不一致となります。関連性の指標の詳細は、Agresti (2007)および各統計量の説明で示されているリファレンスを参照してください。

Pearsonの相関係数とSpearmanの順位相関係数も、順序変数に適しています。Pearsonの相関は、行変数と列変数間のリニアな連関性の強度を記述するものであり、TABLESステートメントのSCORES=で指定された行変数と列変数を使用して計算されます。Spearmanの相関は、ランクスコアを使用して計算されます。Polychoricの相関(PLCORRオプションにより要求される)も順序変数を必要とし、変数が基礎的な2変量正規分布に従うことを仮定します。関連性の指標のうち、非対象ラムダ、対称ラムダ、不確定性係数は順序変数を必要としないため、名義変数に適しています。

FREQプロシジャは、これ以降の各セクションで示す公式に従って統計量の推定値を計算します。各統計量に関して、FREQプロシジャは、漸近標準誤差( $\text{[math]}$ )を計算します。これは、以降のセクションでは $\text{[math]}$ で表される漸近分散の平方根になります。

信頼区間

TABLESステートメントでCLオプションを指定すると、FREQプロシジャは、すべてのMEASURES統計量の漸近信頼限界を計算します。信頼限界はALPHA=オプションの値に従って決定されます。この値はデフォルトで0.05であり、信頼限界は95%になります。

信頼限界は次のように計算されます。

$\text{[math]}$

ここで、 $\text{[math]}$ は統計量の推定値、 $\text{[math]}$ は標準正規分布の $\text{[math]}$ 番目のパーセント点、 $\text{[math]}$ は推定値の漸近標準誤差です。

漸近検定

TESTステートメントで統計量を指定すると、FREQプロシジャは、その統計量がゼロに等しいという帰無仮説に関する漸近的な検定を計算します。漸近検定は、ガンマ、Kendallのtau- $\text{[math]}$ 、Stuartのtau- $\text{[math]}$ 、Somersの $\text{[math]}$ 、Somersの $\text{[math]}$ 、Pearsonの相関係数、Spearmanの順位相関係数のような関連性の指標に関して利用できます。漸近検定を計算する場合、FREQプロシジャは、標準化された検定統計量 $\text{[math]}$ を使用します。これは、帰無仮説の下で漸近標準正規分布に従います。検定統計量は次のように計算されます。

$\text{[math]}$

ここで、 $\text{[math]}$ は統計量の推定値、 $\text{[math]}$ は帰無仮説の下での推定値の分散です。個々の関連性の指標を計算する $\text{[math]}$ 公式は、各統計量について説明したセクションで示します。

次に示す統計量では、 $\text{[math]}$ の $\text{[math]}$ に対する比が同じになります。これには、ガンマ、Kendallのtau- $\text{[math]}$ 、Stuartのtau- $\text{[math]}$ 、Somersの $\text{[math]}$ 、Somersの $\text{[math]}$ が含まれます。このため、これらの統計量に関する検定は同じになります。たとえば、 $\text{[math]}$ の検定の $\text{[math]}$ 値は、 $\text{[math]}$ の検定の $\text{[math]}$ 値に等しくなります。

FREQプロシジャは、これらの各検定の片側および両側の $\text{[math]}$ 値を計算します。検定統計量 $\text{[math]}$ がその帰無仮説の期待値ゼロよりも大きい場合、FREQプロシジャは右側 $\text{[math]}$ 値を表示します。これは、帰無仮説の下で統計量の大きな値が発生する確率になります。小さい右側 $\text{[math]}$ 値は、測定値の真の値がゼロより大きいという対立仮説を支持します。この検定統計量がゼロ以下である場合、FREQプロシジャは、左側 $\text{[math]}$ 値を表示します。これは、帰無仮説の下で統計量の小さな値が発生する確率になります。小さな左側 $\text{[math]}$ 値は、測定値の真の値がゼロより小さいという対立仮説を支持します。片側の $\text{[math]}$ 値 $\text{[math]}$ は次のように計算されます。

$\text{[math]}$

ここで、 $\text{[math]}$ は標準正規分布を持ちます。両側のp値 $\text{[math]}$ は次のように計算されます。

$\text{[math]}$

正確検定

正確検定は、Kendallのtau- $\text{[math]}$ 、Stuartのtau- $\text{[math]}$ 、Somersの $\text{[math]}$ および $\text{[math]}$ 、Pearsonの相関係数、Spearmanの順位相関係数のような関連性の指標に関して利用できます。EXACTステートメントで関連性の指標の正確検定を要求すると、FREQプロシジャは、統計量がゼロに等しいという仮説に関する正確検定を計算します。詳細は、正確な統計量のセクションを参照してください。

ガンマ

ガンマ( $\text{[math]}$ )統計量は、2つのオブザベーション間の一致および不一致の数にのみ基づきます。これはタイのペア(すなわち、 $\text{[math]}$ の値が等しいか、または $\text{[math]}$ の値が等しいオブザベーションのペア)を無視します。ガンマは、両変数が順序尺度である場合にのみ適用できます。ガンマの範囲は、 $\text{[math]}$ になります。行変数と列変数が独立である場合、ガンマはゼロに近づく傾向があります。ガンマは次のように計算されます。

$\text{[math]}$

漸近分散は

$\text{[math]}$

$\text{[math]}$ 表の場合、ガンマはYuleの $\text{[math]}$ に等しくなります。詳細は、Goodman and Kruskal (1979)およびAgresti (2002)を参照してください。

ガンマがゼロに等しい帰無仮説の下での分散は次のように計算されます。

$\text{[math]}$

詳細は、Brown and Benedetti (1977)を参照してください。

KendallのTau-b

Kendallのtau- $\text{[math]}$ ( $\text{[math]}$ )はガンマに似ていますが、tau- $\text{[math]}$ はタイに関する修正を使用する点が異なります。Tau- $\text{[math]}$ は、両変数が順序尺度である場合にのみ適用できます。Tau- $\text{[math]}$ の範囲は $\text{[math]}$ になります。Kendallのtau- $\text{[math]}$ は次のように計算されます。

$\text{[math]}$

漸近分散は次のように計算されます。

$\text{[math]}$

説明

$\text{[math]}$	$\text{[math]}$	$\text{[math]}$
$\text{[math]}$	$\text{[math]}$	$\text{[math]}$
$\text{[math]}$	$\text{[math]}$	$\text{[math]}$
$\text{[math]}$	$\text{[math]}$	$\text{[math]}$
$\text{[math]}$	$\text{[math]}$	$\text{[math]}$

詳細は、Kendall (1955)を参照してください。

tau- $\text{[math]}$ がゼロに等しい帰無仮説の下での分散は次のように計算されます。

$\text{[math]}$

詳細は、Brown and Benedetti (1977)を参照してください。

FREQプロシジャは、Kendallのtau- $\text{[math]}$ に関する正確検定も提供しています。この検定を要求するには、EXACTステートメントでKENTBオプションを指定します。詳細は、正確な統計量のセクションを参照してください。

Stuartのtau-c

Stuartのtau- $\text{[math]}$ ( $\text{[math]}$ )は、タイの修正に加えて、表サイズを調整します。Tau- $\text{[math]}$ は、両変数が順序尺度である場合にのみ適用できます。Tau- $\text{[math]}$ の範囲は $\text{[math]}$ になります。Stuartのtau- $\text{[math]}$ は次のように計算されます。

$\text{[math]}$

漸近分散は

$\text{[math]}$

ここで、 $\text{[math]}$ および $\text{[math]}$ です。tau- $\text{[math]}$ がゼロに等しい帰無仮説の下での分散は、漸近分散 $\text{[math]}$ と同じになります。

$\text{[math]}$

詳細は、Brown and Benedetti (1977)を参照してください。

FREQプロシジャは、Stuartのtau- $\text{[math]}$ に関する正確検定も提供しています。この検定を要求するには、EXACTステートメントでSTUTCオプションを指定します。詳細は、正確な統計量のセクションを参照してください。

SomersのD

Somersの $\text{[math]}$ およびSomersの $\text{[math]}$ はtau- $\text{[math]}$ の非対称的な変形です。 $\text{[math]}$ は、行変数Xを独立変数として、列変数Yを従属変数として見なすことを意味します。同様に、 $\text{[math]}$ は、列変数Yを独立変数として、行変数Xを従属変数として見なすことを示します。Somersの $\text{[math]}$ がtau- $\text{[math]}$ と異なる点は、前者は独立変数に関してタイであるペアに対してのみ修正を適用することにあります。Somersの $\text{[math]}$ は、両変数が順序尺度である場合にのみ適用できます。Somersの $\text{[math]}$ の範囲は $\text{[math]}$ になります。Somersの $\text{[math]}$ は次のように計算されます。

$\text{[math]}$

およびその漸近分散は

$\text{[math]}$

ここで $\text{[math]}$ および

$\text{[math]}$

詳細は、Somers (1962)、Goodman and Kruskal (1979)、およびLiebetrau (1983)を参照してください。

$\text{[math]}$ がゼロに等しい帰無仮説の下での分散は次のように計算されます。

$\text{[math]}$

詳細は、Brown and Benedetti (1977)を参照してください。

Somersの $\text{[math]}$ の公式は、添え字を交換することにより導びかれます。

FREQプロシジャは、Somersの $\text{[math]}$ およびSomersの $\text{[math]}$ に関する正確検定も提供します。これらの正確検定を要求するには、EXACTステートメントでそれぞれSMDCRオプションおよびSMDCRオプションを指定します。詳細は、正確な統計量のセクションを参照してください。

Pearson相関係数

Pearsonの相関係数( $\text{[math]}$ )は、SCORES=オプションに指定されたスコアを使用して計算されます。この測定は、両変数が順序尺度である場合にのみ適用できます。Pearson相関係数の範囲は、 $\text{[math]}$ になります。Pearsonの相関係数は次のように計算されます。

$\text{[math]}$

およびその漸近分散は

$\text{[math]}$

ここで、 $\text{[math]}$ および $\text{[math]}$ はそれぞれ行スコアおよび列スコアであり、次の式が成り立ちます。

$\text{[math]}$	$\text{[math]}$	$\text{[math]}$
$\text{[math]}$	$\text{[math]}$	$\text{[math]}$
$\text{[math]}$	$\text{[math]}$	$\text{[math]}$

$\text{[math]}$	$\text{[math]}$	$\text{[math]}$
$\text{[math]}$	$\text{[math]}$	$\text{[math]}$
$\text{[math]}$	$\text{[math]}$	$\text{[math]}$

詳細は、Snedecor and Cochran (1989)を参照してください。

TABLESステートメントのSCORES=オプションは、Pearson相関係数(およびその他のスコアに基づく統計量)の計算に使用される行スコアおよび列スコアのタイプを指定します。デフォルトはSCORES=TABLEです。利用可能なスコアタイプとそれらの計算方法についての詳細は、スコアのセクションを参照してください。

相関がゼロに等しい帰無仮説のもとでの分散は次のように計算されます。

$\text{[math]}$

この分散式は、分割表のフレームワークにおける多項標本抽出で導出されるものであり、両変数が連続でありかつ正規分布に従うという仮定の下で導かれる形式とは異なっています。詳細は、Brown and Benedetti (1977)を参照してください。

FREQプロシジャは、Pearsonの相関係数に関する正確検定も提供しています。この検定を要求するには、EXACTステートメントでPCORRオプションを指定します。詳細は、正確な統計量のセクションを参照してください。

Spearmanの順位相関係数

Spearmanの相関係数( $\text{[math]}$ )を計算するには、スコアのセクションで定義されているランクスコアを使用します。この測定は、両変数が順序尺度である場合にのみ適用できます。Spearman相関係数の範囲は、 $\text{[math]}$ になります。Spearmanの相関係数は次のように計算されます。

$\text{[math]}$

およびその漸近分散は

$\text{[math]}$

ここで、 $\text{[math]}$ および $\text{[math]}$ はそれぞれ行および列のランクスコアであり、次の式が成り立ちます。

$\text{[math]}$	$\text{[math]}$	$\text{[math]}$
$\text{[math]}$	$\text{[math]}$	$\text{[math]}$
$\text{[math]}$	$\text{[math]}$	$\text{[math]}$
$\text{[math]}$	$\text{[math]}$	$\text{[math]}$

$\text{[math]}$	$\text{[math]}$	$\text{[math]}$
$\text{[math]}$	$\text{[math]}$	$\text{[math]}$
$\text{[math]}$	$\text{[math]}$	$\text{[math]}$
$\text{[math]}$	$\text{[math]}$	$\text{[math]}$
$\text{[math]}$	$\text{[math]}$	$\text{[math]}$
$\text{[math]}$	$\text{[math]}$	$\text{[math]}$
$\text{[math]}$	$\text{[math]}$	$\text{[math]}$

詳細は、Snedecor and Cochran (1989)を参照してください。

相関がゼロに等しい帰無仮説のもとでの分散は次のように計算されます。

$\text{[math]}$

説明

$\text{[math]}$

この漸近分散は、分割表のフレームワークにおける多項標本抽出で導出されるものであり、両変数が連続でありかつ正規分布に従うという仮定の下で導かれる形式とは異なっています。詳細は、Brown and Benedetti (1977)を参照してください。

FREQプロシジャは、Spearmanの相関係数に関する正確検定も提供しています。この検定を要求するには、EXACTステートメントでSCORRオプションを指定します。詳細は、正確な統計量のセクションを参照してください。

多分相関係数

TABLESステートメントでPLCORRオプションを指定すると、FREQプロシジャはポリコリック相関を計算します。この連関性の指標は、度数表の順序カテゴリ変数が2変量正規分布に従うという仮定に基づいています。 $\text{[math]}$ 表の場合、ポリコリック相関は四分相関とも呼ばれます。ポリコリック相関の概要については、Drasgow (1986)を参照してください。ポリコリック相関は、正規変数間における積率相関の最尤推定値であり、観測された表の度数からしきい値を推定します。ポリコリック相関の範囲は、–1～1になります。Olsson (1979)は、この推定値に関する尤度方程式と漸近共分散行列を提供しています。

ポリコリック相関を計算する場合、FREQプロシジャは、Pearson相関係数を初期近似として使用するNewton-Raphsonアルゴリズムにより尤度方程式を繰り返し解きます。この反復計算は、収束測定値が収束基準を下まわった場合、または最大反復数に達した場合に停止します。CONVERGE=オプションは収束基準を指定します。デフォルト値は0.0001です。MAXITER=オプションは最大反復数を指定します。デフォルト値は20です。

非対称ラムダ

非対称ラムダ $\text{[math]}$ は、行変数Xに関する知識を与えられた場合の列変数Yの予測における推定的な改善として解釈されます。非対称ラムダの範囲は、 $\text{[math]}$ になります。非対称ラムダ( $\text{[math]}$ )は次のように計算されます。

$\text{[math]}$

およびその漸近分散は

$\text{[math]}$

説明

$\text{[math]}$	$\text{[math]}$	$\text{[math]}$
$\text{[math]}$	$\text{[math]}$	$\text{[math]}$
$\text{[math]}$	$\text{[math]}$	$\text{[math]}$
$\text{[math]}$	$\text{[math]}$	$\text{[math]}$

$\text{[math]}$ および $\text{[math]}$ の値は次のように決定されます。 $\text{[math]}$ により $\text{[math]}$ の一意の値( $\text{[math]}$ など)を表し、 $\text{[math]}$ を $\text{[math]}$ の一意の値( $\text{[math]}$ など)とします。一意性仮説により、度数または周辺度数のタイを、任意の一貫した方式で分割する必要があります。タイの場合、 $\text{[math]}$ は $\text{[math]}$ の最小値として定義されます( $\text{[math]}$ など)。

セル $\text{[math]}$ を含んでいるこれらの列で $\text{[math]}$ である場合、 $\text{[math]}$ は $\text{[math]}$ が起こると仮定される行を記録します。最初に、 $\text{[math]}$ はすべての $\text{[math]}$ で-1に設定されます。 $\text{[math]}$ で始まり、 $\text{[math]}$ となるような値 $\text{[math]}$ が少なくとも1つ存在し、かつ $\text{[math]}$ であるならば、 $\text{[math]}$ はそのような値 $\text{[math]}$ の最小値として定義され、 $\text{[math]}$ は $\text{[math]}$ に等しいものとして設定されます。それ以外の場合、 $\text{[math]}$ であるならば、 $\text{[math]}$ は $\text{[math]}$ に等しいものとして定義されます。どちらの条件も真でない場合、 $\text{[math]}$ は、 $\text{[math]}$ のような値 $\text{[math]}$ の最小値となります。

非対称ラムダ $\text{[math]}$ の公式は、添え字を交換することにより導びかれます。

詳細は、Goodman and Kruskal (1979)を参照してください。

対称ラムダ

非指向性ラムダとは、2つの非対称ラムダ $\text{[math]}$ および $\text{[math]}$ の平均です。その範囲は $\text{[math]}$ です。対称ラムダは次のように計算されます。

$\text{[math]}$

その漸近分散は次のように計算されます。

$\text{[math]}$

説明

$\text{[math]}$	$\text{[math]}$	$\text{[math]}$
$\text{[math]}$	$\text{[math]}$	$\text{[math]}$
$\text{[math]}$	$\text{[math]}$	$\text{[math]}$
$\text{[math]}$	$\text{[math]}$	$\text{[math]}$
$\text{[math]}$	$\text{[math]}$	$\text{[math]}$
$\text{[math]}$	$\text{[math]}$	$\text{[math]}$
$\text{[math]}$	$\text{[math]}$	$\text{[math]}$
$\text{[math]}$	$\text{[math]}$	$\text{[math]}$

$\text{[math]}$ および $\text{[math]}$ の定義は、前のセクションで示されています。 $\text{[math]}$ および $\text{[math]}$ の値は、非対称ラムダ( $\text{[math]}$ )と同様の方法で定義されます。

詳細は、Goodman and Kruskal (1979)を参照してください。

不確定性係数(非対称)

不確定性係数 $\text{[math]}$ は、行変数Xにより説明される列変数Yにおける不確定性の割合を測定するものです。その範囲は $\text{[math]}$ です。不確定性係数は次のように計算されます。

$\text{[math]}$

およびその漸近分散は

$\text{[math]}$

説明

$\text{[math]}$	$\text{[math]}$	$\text{[math]}$
$\text{[math]}$	$\text{[math]}$	$\text{[math]}$
$\text{[math]}$	$\text{[math]}$	$\text{[math]}$
$\text{[math]}$	$\text{[math]}$	$\text{[math]}$
$\text{[math]}$	$\text{[math]}$	$\text{[math]}$