CORRプロシジャ

Hoeffding従属係数

サブセクション

確率値

Hoeffdingの従属統計量 $D$ は、より一般的な独立性からの乖離を測る、連関性のノンパラメトリックな統計量です。Hoeffdingの縦続統計量は、2×2分類表からカイ2乗統計量を求め、そのカイ2乗統計量を重み付けして合計した値の近似になります(Hoeffding, 1948)。各 $(x,y)$ 値は、分類のカットポイントとなります。Hoeffdingの $D$ は次の式で表されます。

$D = 30 \, \frac{(n-2)(n-3)D_1+D_2-2(n-2)D_3}{n(n-1)(n-2)(n-3)(n-4)}$

ここで、 $D_1 =\sum _ i (Q_ i-1)(Q_ i-2)$ 、 $D_2 =\sum _ i (R_ i-1)(R_ i-2)(S_ i-1)(S_ i-2)$ 、 $D_3 =\sum _ i (R_ i-2)(S_ i-2)(Q_ i-1)$ です。 $R_ i$ は $x_ i$ の順位、 $S_ i$ は $y_ i$ の順位で、 $Q_ i$ (2変量順位とも呼ぶ)は、x番目の点のyおよび i値よりも小さい値を持つ点の数に1を加えたものです。

x値またはy値のいずれかでタイである点は、 $Q_ i$ にその2分の1を提供します(もう一方の値が、i番目の点の値よりも小さい場合)。

xおよびyの両方でタイである点は、 $Q_ i$ にその4分の1を提供します。CORRプロシジャは、まずデータを順位付けすることにより $Q_ i$ 値を取得します。続いて、最初の変数の値でオブザベーションを順位付けした後、2番目の変数の値でオブザベーションを順位付けすることにより、データが二重に並べ替えられます。Hoeffdingの $D$ 統計量は、最初の変数の交換数を使って計算されます。データセットのオブザベーション間でタイが発生しない場合、 $D$ 統計量の値は-0.5から1までの間になります(1は完全従属を意味する)。一方、タイが発生する場合、 $D$ 統計量の値はより小さい値になります。すなわち、変数のペアが同じ値を持つ場合、Hoeffdingの $D$ 統計量は1よりも小さい値になります。小規模なデータセットで多くのタイが発生する場合、D統計量は-0.5未満になります。HoeffdingのDに関する詳細は、Hollander and Wolfe (1999)を参照してください。

確率値

Hoeffdingの $D$ 統計量の確率値は、Blum, Kiefer, and Rosenblatt (1961)により計算された漸近分布を使用して計算されます。公式は次の通りです。

$\frac{(n-1)\pi ^{4}}{60}D + \frac{\pi ^4}{72}$

これは漸近分布から導かれます。標本サイズが10未満である場合、Hollander and Wolfe (1999)の $D$ 分布の表を参照してください。