FREQプロシジャ

連関性の統計量

TABLESステートメントでMEASURESオプションを指定すると、FREQプロシジャは、分割表の行変数と列変数の間の連関性を示す複数の統計量を計算します。行変数Xが増加するにつれ列変数Yが増加する傾向にあるかどうかを検討する順序連関性の統計量としては、ガンマ、KendallのTau-b、StuartのTau-c、SomersのDがあります。これらの統計量は順序変数に適しており、これらの統計量によりオブザベーションのペアを一致または不一致として分類できます。オブザベーションでXの値が大きいほどYの値も大きくなる場合、そのペアは一致となります。オブザベーションでXの値が大きいほどYの値が小さくなる場合、そのペアは不一致となります。詳細は、Agresti (2007)および各連関性の統計量の説明で示されている参考文献を参照してください。

Pearsonの相関係数とSpearmanの順位相関係数も、順序変数に適しています。 Pearsonの相関は、行変数と列変数間の線形連関性の強度を示するものであり、TABLESステートメントのSCORES=で指定された行変数と列変数を使用して計算されます。Spearmanの相関は、ランクスコアを使用して計算されます。ポリコリック相関(PLCORRオプションにより要求される)も順序変数を必要とし、変数が2変量正規分布に従うことを仮定します。連関性の統計量のうち、非対象ラムダ、対称ラムダ、不確定性係数は順序変数を必要としないため、名義変数に適しています。

FREQプロシジャは、これ以降の各セクションで示す公式に従って統計量の推定値を計算します。各統計量に関して、FREQプロシジャは、漸近標準誤差(ASE)を計算します。これは、以降のセクションではVarで表される漸近分散の平方根になります。

信頼限界

TABLESステートメントでCLオプションを指定すると、FREQプロシジャは、すべてのMEASURES統計量の漸近信頼限界を計算します。信頼限界はALPHA=オプションの値に従って決定されます。この値はデフォルトで0.05であり、信頼限界は95%になります。

信頼限界は次のように計算されます。

$\mr{Est} ~ \pm ~ (~ z_{\alpha /2} \times \mr{ASE} ~ )$

ここで、 Estは統計量の推定値、 $z_{\alpha /2}$ は標準正規分布の $100(1-\alpha /2)$ 番目のパーセント点、ASE は推定値の漸近標準誤差です。

漸近検定

TESTステートメントで統計量を指定すると、FREQプロシジャは、その統計量がゼロに等しいという帰無仮説の漸近的な検定を計算します。漸近検定は、ガンマ、KendallのTau-b、StuartのTau-c、Somersの $D(C|R)$ 、Somersの $D(R|C)$ Pearsonの相関係数、Spearmanの順位相関係数のような連関性の統計量に関して利用できます。漸近検定を計算する場合、FREQプロシジャは、標準化された検定統計量zを使用します。この統計量は、重み付きカッパ係数がゼロであるという帰無仮説の下で漸近標準正規分布に従います。検定統計量は次のように計算されます。

$z = \mr{Est} ~ / ~ \sqrt {\mr{Var}_0(\mr{Est})}$

ここで、Estは統計量の推定値、 $\mr{Var}_0(\mr{Est})$ は帰無仮説の下での推定値の分散です。個々の連関性の統計量を計算する $\mr{Var}_0(\mr{Est})$ 公式は、各統計量について説明したセクションで示します。

次に示す統計量では、Estの $\sqrt {\mr {Var}_0(\mr {Est})}$ に対する比が同じになります。これには、ガンマ、KendallのTau-b、StuartのTau-c、Somersの $D(C|R)$ 、Somersの $D(R|C)$ が含まれます。このため、これらの統計量の検定は同じになります。たとえば、 $H_0\colon \mr {gamma} = 0$ の検定のp値は、 $H_0\colon \mr {tau}-b = 0$ の検定のp値に等しくなります。

FREQプロシジャは、これらの各検定の片側および両側のp値を計算します。検定統計量zがその帰無仮説の期待値ゼロよりも大きい場合、FREQプロシジャは右側p値を表示します。これは、帰無仮説の下で統計量の大きな値が発生する確率になります。小さい右側p値は、最初のセルの確率が帰無仮説の下での期待確率よりも実際には大きいという対立仮説を支持します。この検定統計量がゼロ以下である場合、FREQプロシジャは、左側pを表示します。これは、帰無仮説の下で統計量の小さな値が発生する確率になります。小さな左側p測定値の真の値がゼロより小さいという対立仮説を支持します。片側のp値 $P_1$ は次のように計算されます。

$\begin{equation*} P_1 = \begin{cases} \mr{Prob} (Z > z) \quad \mr{if} \hspace{.1in} z > 0 \\ \mr{Prob} (Z < z) \quad \mr{if} \hspace{.1in} z \leq 0 \\ \end{cases}\end{equation*}$

ここで、Zは標準正規分布を持ちます。両側のp値 $P_{2}$ は次のように計算されます。

$P_{2} = \mr{Prob} (|Z| > |z|)$

正確検定

正確検定は、ガンマ、KendallのTau-b、StuartのTau-c、Somersの $D (C|R)$ および $(R|C)$ 、Pearsonの相関係数、Spearmanの順位相関係数のような連関性の統計量に関して利用できます。EXACTステートメントで連関性の統計量の正確検定を要求すると、FREQプロシジャは、統計量がゼロに等しいという仮説の正確検定を計算します。詳細は、正確な統計量のセクションを参照してください。

ガンマ

ガンマ( $\Gamma$ )統計量は、2つのオブザベーション間の一致および不一致の数にのみ基づきます。これは、タイのペア(すなわち、X値が等しいか、またはYの値が等しいオブザベーションのペア)を無視します。ガンマは、両変数が順序尺度である場合にのみ適用できます。ガンマの範囲は、 $-1 \leq \Gamma \leq 1$ になります。行変数と列変数が独立である場合、ガンマはゼロに近づく傾向があります。ガンマは次のように計算されます。

$G = (P - Q) ~ / ~ (P + Q)$

漸近分散は次のように計算されます。

$\mr{Var}(G) = \frac{16}{(P + Q)^4} \sum _ i \sum _ j n_{ij} (QA_{ij} - PD_{ij})^2$

$2 \times 2$ 表の場合、ガンマはYuleのQに等しくなります。詳細は、Goodman and Kruskal (1979)およびAgresti (2002)を参照してください。

ガンマがゼロに等しい帰無仮説の下での分散は次のように計算されます。

$\mr{Var}_0(G) = \frac{4}{(P+Q)^2} \left( \sum _ i \sum _ j n_{ij} (A_{ij}-D_{ij})^2 - (P-Q)^2/n \right)$

詳細は、Brown and Benedetti (1977)を参照してください。

KendallのTau-b

KendallのTau-b ( $\tau _ b$ )はガンマに似ていますが、Tau-bはタイの修正を使用する点が異なります。Tau-bは、両変数が順序尺度である場合にのみ適用できます。Tau-bの範囲は $-1 \leq \tau _ b \leq 1$ になります。KendallのTau-bは次のように計算されます。

$t_ b = (P - Q) ~ / ~ \sqrt {w_ r w_ c}$

漸近分散は次のように計算されます。

$\mr{Var}(t_ b) = \frac{1}{w^4} \left( \sum _ i \sum _ j n_{ij} (2wd_{ij} + t_ b v_{ij})^2 - n^3 t_ b^2 (w_ r + w_ c)^2 \right)$

ここで、

$\begin{eqnarray*} w & = & \sqrt {w_ r w_ c} \\[0.05in] w_ r & = & n^2 - \sum _ i n_{i \cdot }^2 \\[0.05in] w_ c & = & n^2 - \sum _ j n_{\cdot j}^2 \\[0.05in] d_{ij} & = & A_{ij} - D_{ij} \\[0.05in] v_{ij} & = & n_{i \cdot } w_ c + n_{\cdot j} w_ r \end{eqnarray*}$

詳細は、Kendall (1955)を参照してください。

Tau-bがゼロに等しい帰無仮説の下での分散は次のように計算されます。

$\mr{Var}_0(t_ b) = \frac{4}{w_ r w_ c} \left( \sum _ i \sum _ j n_{ij} (A_{ij} - D_{ij})^2 - (P-Q)^2/n \right)$

詳細は、Brown and Benedetti (1977)を参照してください。

FREQプロシジャは、KendallのTau-bの正確検定も提供しています。この検定を要求するには、EXACTステートメントでKENTBオプションを指定します。詳細は、正確な統計量のセクションを参照してください。

StuartのTau-c

StuartのTau-c ( $\tau _ c$ )は、タイの修正に加えて、表サイズを調整します。Tau-cは、両変数が順序尺度である場合にのみ適用できます。Tau-cの範囲は $-1 \leq \tau _ c \leq 1$ になります。StuartのTau-cは次のように計算されます。

$t_ c = m(P - Q) ~ / ~ n^2(m-1)$

漸近分散は次のように計算されます。

$\mr{Var}(t_ c) = \frac{4m^2}{(m - 1)^2 n^4} \left( \sum _ i \sum _ j n_{ij} d_{ij}^2 - (P-Q)^2/n \right)$

ここで、 $m = \min (R,C)$ および $d_{ij} = A_{ij} - D_{ij}$ です。Tau-cがゼロに等しい帰無仮説の下での分散は、漸近分散Varと同じになります。

$\mr{Var}_0(t_ c) = \mr{Var}(t_ c)$

詳細は、Brown and Benedetti (1977)を参照してください。

FREQプロシジャは、Stuartのtau-cの正確検定も提供しています。この検定を要求するには、EXACTステートメントでSTUTCオプションを指定します。詳細は、正確な統計量のセクションを参照してください。

SomersのD

Somersの $D(C|R)$ およびSomersの $D(R|C)$ は、Tau-bの非対称的な変形です。 $C|R$ は、行変数Xを独立変数として、列変数Yを従属変数として見なすことを意味します。同様に、 $R|C$ は列変数Yを独立変数として、行変数Xを従属変数として見なすことを意味します。SomersのDがTau-bと異なる点は、前者は独立変数に関してタイであるペアに対してのみ修正を適用することにあります。SomersのDは、両変数が順序尺度である場合にのみ適用できます。SomersのDの範囲は、 $-1 \leq D \leq 1$ になります。Somersの $D(C|R)$ は、次のように計算されます。

$D(C|R) = (P - Q) ~ / ~ w_ r$

その漸近分散は次のように計算されます。

$\mr{Var}(D(C|R)) = \frac{4}{w_ r^4} \sum _ i \sum _ j n_{ij} \bigl ( w_ r d_{ij} - (P - Q)(n - n_{i \cdot }) \bigr )^2$

ここで、 $d_{ij} = A_{ij} - D_{ij}$ であり、次の式が成り立ちます。

$w_ r = n^2 - \sum _ i n_{i \cdot }^2$

詳細は、Somers (1962)、Goodman and Kruskal (1979)、Liebetrau (1983)を参照してください。

$D(C|R)$ がゼロに等しい帰無仮説の下での分散は、次のように計算されます。

$\mr{Var}_0(D(C|R)) = \frac{4}{w_ r^2} \left( \sum _ i \sum _ j n_{ij} (A_{ij} - D_{ij})^2 - (P-Q)^2/n \right)$

詳細は、Brown and Benedetti (1977)を参照してください。

Somersの $D(R|C)$ の公式は、添え字を交換することにより導びかれます。

FREQプロシジャは、Somersの $D (C|R)$ およびSomersの $(R|C)$ の正確検定も提供しています。これらの正確検定を要求するには、EXACTステートメントでそれぞれSMDCRオプションおよびSMDCRオプションを指定します。詳細は、正確な統計量のセクションを参照してください。

Pearsonの相関係数

Pearsonの相関係数( $\rho$ )は、SCORES=オプションに指定されたスコアを使用して計算されます。この統計量は、両変数が順序尺度である場合にのみ適用できます。Pearsonの相関係数の範囲は $-1 \leq \rho \leq 1$ になります。Pearsonの相関係数は次のように計算されます。

$r = v / w = \mi{ss}_{rc} / \sqrt {\mi{ss}_ r \mi{ss}_ c}$

その漸近分散は次のように計算されます。

$\mr{Var}(r) = \frac{1}{w^4} \sum _ i \sum _ j n_{ij} \left( w (R_ i - \bar{R}) (C_ j - \bar{C}) - \frac{b_{ij} v}{2w} \right)^2$

ここで、 $R_ i$ および $C_ j$ はそれぞれ行スコアおよび列スコアであり、次の式が成り立ちます。

$\begin{eqnarray*} \mi{ss}_ r & = & \sum _ i \sum _ j n_{ij} (R_ i-\bar{R})^2 \\[0.10in] \mi{ss}_ c & = & \sum _ i \sum _ j n_{ij} (C_ j-\bar{C})^2 \\[0.10in] \mi{ss}_{rc} & = & \sum _ i \sum _ j n_{ij} (R_ i-\bar{R})(C_ j-\bar{C}) \end{eqnarray*}$

$\begin{eqnarray*} b_{ij} & = & (R_ i-\bar{R})^2 \mi{ss}_ c + (C_ j-\bar{C})^2 \mi{ss}_ r \\[0.10in] v & = & \mi{ss}_{rc} \\[0.10in] w & = & \sqrt {\mi{ss}_ r \mi{ss}_ c} \end{eqnarray*}$

詳細は、Snedecor and Cochran (1989)を参照してください。

TABLESステートメントのSCORES=オプションは、Pearson相関係数(およびその他のスコアに基づく統計量)の計算に使用される行スコアおよび列スコアの種類を指定します。デフォルトはSCORES=TABLEです。使用可能なスコアの種類とそれらの計算方法についての詳細は、スコアのセクションを参照してください。

相関がゼロに等しい帰無仮説の下での分散は次のように計算されます。

$\mr{Var}_0(r) = \left( \sum _ i \sum _ j n_{ij} (R_ i - \bar{R})^2 (C_ j - \bar{C})^2 - \mi{ss}_{rc}^2 / n \right) ~ / ~ \mi{ss}_ r \mi{ss}_ c$

この分散式は、分割表のフレームワークにおける多項標本抽出で導びかれるものであり、両変数が連続でありかつ正規分布に従うという仮定の下で導かれる形式とは異なっています。詳細は、Brown and Benedetti (1977)を参照してください。

FREQプロシジャは、Pearsonの相関係数の正確検定も提供しています。この検定を要求するには、EXACTステートメントでPCORRオプションを指定します。詳細は、正確な統計量のセクションを参照してください。

Spearmanの順位相関係数

Spearmanの相関係数( $\rho _ s$ )を計算するには、スコアのセクションで定義されているランクスコアを使用します。この測定は、両変数が順序尺度である場合にのみ適用できます。Spearmanの相関係数の範囲は、 $-1 \leq \rho _ s \leq 1$ になります。Spearmanの相関係数は、次のように計算されます。

$r_ s = v ~ / ~ w$

その漸近分散は次のように計算されます。

$\mr{Var}(r_ s) = \frac{1}{n^2 w^4} \sum _ i \sum _ j n_{ij} (z_{ij} - \bar{z})^2$

ここで、 $R^1_ i$ および $C^1_ j$ はそれぞれ行および列のランクスコアであり、次の式が成り立ちます。

$\begin{eqnarray*} v & = & \sum _ i \sum _ j n_{ij} R(i) C(j) \\[0.10in] w & = & \frac{1}{12} \sqrt {FG} \\[0.10in] F & = & n^3 - \sum _ i n_{i \cdot }^3 \\[0.10in] G & = & n^3 - \sum _ j n_{\cdot j}^3 \\[0.10in] R(i) & = & R^1_ i - n/2 \\[0.10in] C(j) & = & C^1_ j - n/2 \\[0.10in] \bar{z} & = & \frac{1}{n} \sum _ i \sum _ j n_{ij} z_{ij} \\[0.10in] z_{ij} & = & wv_{ij} - vw_{ij} \end{eqnarray*}$

$\begin{eqnarray*} v_{ij} & = & n \left( R(i) C(j) ~ + ~ \frac{1}{2} \sum _ l n_{il} C(l) ~ + ~ \frac{1}{2} \sum _ k n_{kj} R(k) ~ + \right. \\ & & \left. \hspace{1in} \sum _ l \sum _{k>i} n_{kl} C(l) ~ + ~ \sum _ k \sum _{l>j} n_{kl} R(k) \right) \\[0.10in] w_{ij} & = & \frac{-n}{96w} \left( F n_{\cdot j}^2 + G n_{i \cdot }^2 \right) \end{eqnarray*}$

詳細は、Snedecor and Cochran (1989)を参照してください。

相関がゼロに等しい帰無仮説の下での分散は次のように計算されます。

$\mr{Var}_0(r_ s) = \frac{1}{n^2 w^2} \sum _ i \sum _ j n_{ij} (v_{ij} - \bar{v})^2$

ここで、

$\bar{v} = \sum _ i \sum _ j n_{ij} v_{ij} / n$

この漸近分散は、分割表のフレームワークにおける多項標本抽出で導びかれるものであり、両変数が連続でありかつ正規分布に従うという仮定の下で導かれる形式とは異なっています。詳細は、Brown and Benedetti (1977)を参照してください。

FREQプロシジャは、Spearmanの相関係数の正確検定も提供しています。この検定を要求するには、EXACTステートメントでSCORRオプションを指定します。詳細は、正確な統計量のセクションを参照してください。

ポリコリック相関

TABLESステートメントでPLCORRオプションを指定すると、FREQプロシジャはポリコリック相関と、その標準誤差を計算します。ポリコリック相関は、度数表の2つの順序カテゴリ変数が2変量正規分布に従うという仮定に基づいています。ポリコリック相関は、正規変数間における積率相関の最尤推定値です。ポリコリック相関の範囲は–1から1までです。 $2 \times 2$ 表の場合、ポリコリック相関はテトラコリック相関とも呼ばれます(表示出力のラベルにはそのように名前が付けられます)。ポリコリック相関係数の概要については、Drasgow (1986)を参照してください。

Olsson (1979)は、ポリコリック相関の推定の尤度方程式と漸近標準誤差を提唱しています。連続変数は、各カテゴリ(表)の水準に対応する数値の範囲を定義するしきい値を介して、観測クロス集計表に関連します。FREQプロシジャは、Olssonの最尤法を使用して、ポリコリック相関としきい値を同時に推定します (Olssonは、最初にしきい値を推定する2段階の方法も提唱しています)。

FREQプロシジャは、Newton-Raphsonアルゴリズムを使用することにより、尤度方程式を繰り返し解きます。しきい値の最初の推定値は、表の累積周辺比率における正規分布関数の逆から計算されます。ポリコリック相関の反復計算は、収束測定値が収束基準を下回った場合、または最大反復数に達した場合に停止します。パラメータ値が0.01未満の場合、相対的差異ではなく絶対的差異を使用して収束が推定されます。PLCORR(CONVERGE=)オプションは、収束基準を指定します(デフォルト値は0.0001です)。PLCORR(MAXITER=)オプションは、最大反復回数を指定します(デフォルト値は0.0001です)。

TABLESステートメントでCLオプションを指定すると、FREQプロシジャはポリコリック相関の信頼限界を計算します。信頼限界は次のように計算されます。

$\hat{\rho } ~ \pm ~ ( ~ z_{\alpha /2} \times \mr{SE}(\hat{\rho }) ~ )$

ここで、 $\hat{\rho }$ はポリコリック相関の推定値、 $z_{\alpha /2}$ は標準正規分布の $100(1 - \alpha /2)$ 番目のパーセント点、 $\mr {SE}(\hat{\rho })$ はポリコリック相関推定値の標準誤差です。

TESTステートメントでPLCORRオプションを指定すると、FREQプロシジャは、ポリコリック相関がゼロに等しい帰無仮説の下でのWald検定および尤度比検定を計算します。Wald検定は次のように計算されます。

$z = \hat{\rho } ~ / ~ \mr{SE}(\hat{\rho })$

これは、帰無仮説の下で標準正規分布に従います。FREQプロシジャは、傾向検定の片側および両側のp値を計算します。検定統計量zが帰無仮説の期待値であるゼロよりも大きい場合、FREQプロシジャは、右側p値を表示します。この検定統計量がゼロ以下である場合、FREQプロシジャは、左側p値を計算します。

ポリコリック相関の尤度比統計量は次のように計算されます。

$G^2 = -2 ~ \ln ( L_0 / L_1 )$

ここで、 $L_0$ は、ポリコリック相関がゼロである場合の尤度比関数(Olsson, 1979)です。 $L_1$ は、すべてのパラメータを最尤推定値で置き換えた場合の尤度比関数の値です。帰無仮説の下で、尤度比統計量は自由度が1の漸近カイ2乗分布に従います。

ラムダ(非対称)

非対称ラムダ $\lambda (C|R)$ は、行変数Xに関する知識を与えられた場合の列変数Yの予測における推定的な改善として解釈されます。非対称ラムダの範囲は、 $0 \leq \lambda (C|R) \leq 1$ になります。非対称ラムダ( $C|R$ )は、次のように計算されます。

$\lambda (C|R) = \frac{\sum _ i r_ i - r}{n - r}$

その漸近分散は次のように計算されます。

$\mr{Var}(\lambda (C|R)) = \frac{n - \sum _ i r_ i}{(n - r)^3} \left( \sum _ i r_ i + r - 2 \sum _ i (r_ i~ |~ l_ i = l) \right)$

ここで、

$\begin{eqnarray*} r_ i & = & \max _ j (n_{ij}) \\[0.10in] r & = & \max _ j (n_{\cdot j}) \\[0.10in] c_ j & = & \max _ i (n_{ij}) \\[0.10in] c & = & \max _ i (n_{i \cdot }) \end{eqnarray*}$

$l_ i$ およびlの値は、次のように決定されます。 $l_ i$ によりjの重複しない値( $r_ i=n_{ij}$ など)を表し、lをjの重複しない値( $r=n_{\cdot j}$ など)とします。一意性仮説により、度数または周辺合計のタイを、任意の一貫した方式で分割する必要があります。タイの場合、lはjの最小値として定義されます( $r=n_{\cdot j}$ など)。

セル(i, j)を含んでいるこれらの列で $n_{ij} = r_ i = c_ j$ である場合、 $cs_ j$ は $c_ j$ が起こると仮定される行を記録します。最初に、 $cs_ j$ はすべてのjで-1に設定されます。i=1で始まり、 $n_{ij}=r_ i=c_ j$ となるような値j が少なくとも1つ存在し、かつ $cs_ j = -1$ であるならば、 $l_ i$ はそのような値jの最小値として定義され、 $cs_ j$ はiに等しくなるように設定されます。それ以外の場合、 $n_{il}=r_ i$ であるならば、 $l_ i$ はlに等しくなるように設定されます。どちらの条件も真でない場合、 $l_ i$ は、 $n_{ij}=r_ i$ のような値jの最小値となります。

非対称ラムダ $(R|C)$ の公式は、添え字を交換することにより導びかれます。

詳細は、Goodman and Kruskal (1979)を参照してください。

ラムダ(対称)

非指向性ラムダとは、2つの非対称ラムダ $\lambda (C|R)$ および $\lambda (R|C)$ の平均です。その範囲は $0 \leq \lambda \leq 1$ です。対称ラムダは次のように計算されます。

$\lambda = \frac{\sum _ i r_ i + \sum _ j c_ j - r - c}{2n - r - c} = \frac{w - v}{w}$

その漸近分散は次のように計算されます。

$\mr{Var}(\lambda ) = \frac{1}{w^4} \Bigl ( wvy - 2w^2 \bigl ( n-\sum _ i \sum _ j (n_{ij}~ |~ j=l_ i,i=k_ j) \bigr ) - 2v^2 (n - n_{kl}) \Bigr )$

ここで、

$\begin{eqnarray*} r_ i & = & \max _ j (n_{ij}) \\[0.10in] r & = & \max _ j (n_{\cdot j}) \\[0.10in] c_ j & = & \max _ i (n_{ij}) \\[0.10in] c & = & \max _ i (n_{i \cdot }) \\[0.10in] w & = & 2n - r - c \\[0.10in] v & = & 2n - \sum _ i r_ i - \sum _ j c_ j \\[0.10in] x & = & \sum _ i (r_ i ~ |~ l_ i=l ) ~ + ~ \sum _ j (c_ j ~ |~ k_ j=k) ~ + ~ r_ k ~ + ~ c_ l \\[0.10in] y & = & 8n - w - v - 2x \end{eqnarray*}$

$l_ i$ およびlの定義は、前のセクションで示されています。 $k_ j$ およびkの値は、非対称ラムダ( $R|C$ )と同様の方法で定義されます。

詳細は、Goodman and Kruskal (1979)を参照してください。

不確定性係数(非対称)

不確定性係数 $U(C|R)$ は、行変数Xにより説明される列変数Yにおける不確定性の割合を測定するものです。その範囲は $0 \leq U(C|R) \leq 1$ です。不確定性係数は次のように計算されます。

$U(C|R) = \left( H(X) + H(Y) - H(XY) \right) ~ / ~ H(Y) = v / w$

その漸近分散は次のように計算されます。

$\mr{Var}(U(C|R)) = \frac{1}{n^2 w^4} \sum _ i \sum _ j n_{ij} \bigl ( H(Y) \ln \left( \frac{n_{ij}}{n_{i \cdot }} \right) + (H(X) - H(XY)) \ln \left( \frac{n_{\cdot j}}{n} \right) \bigr )^2$

ここで、

$\begin{eqnarray*} v & = & H(X) + H(Y) - H(XY) \\[0.10in] w & = & H(Y) \\[0.10in] H(X) & = & -\sum _ i \left( \frac{n_{i \cdot }}{n} \right) \ln \left( \frac{n_{i \cdot }}{n} \right) \\[0.10in] H(Y) & = & -\sum _ j \left( \frac{n_{\cdot j}}{n} \right) \ln \left( \frac{n_{\cdot j}}{n} \right) \\[0.10in] H(XY) & = & -\sum _ i \sum _ j \left( \frac{n_{ij}}{n} \right) \ln \left( \frac{n_{ij}}{n} \right) \end{eqnarray*}$

不確定性係数 $U(R|C)$ の公式は、添え字を交換することにより導びかれます。

詳細は、Theil (1972, pp. 115–120)およびGoodman and Kruskal (1979)を参照してください。

不確定性係数(対称)

不確定性係数Uは、2つの非対称不確定性係数の対称版です。その範囲は $0 \leq U \leq 1$ です。不確定性係数は次のように計算されます。

$U = 2 \left( H(X) + H(Y) - H(XY) \right) ~ / ~ ( H(X) + H(Y) )$

その漸近分散は次のように計算されます。

$\mr{Var}(U) = 4 \sum _ i \sum _ j \frac{ n_{ij} \left( H(XY) \ln \left( \frac{n_{i \cdot } n_{\cdot j}}{n^2} \right) - (H(X) + H(Y)) \ln \left( \frac{n_{ij}}{n} \right) \right)^2 }{n^2 ~ (H(X) + H(Y))^4}$

ここで、 $H(X)$ 、 $H(Y)$ 、 $H(XY)$ は、前のセクションで定義されています。詳細は、Goodman and Kruskal (1979)を参照してください。