CORRプロシジャ

ポリシリアル相関

サブセクション

ポリシリアル相関は、1つの変数が直接観測され1つの変数が非観測である場合に、2変量正規分布を使用して2つの連続変数の相関を測定します。非観測変数に関する情報は、非観測変数の値を離散的な順序値の有限集合へと分類することにより導かれる観測順序変数を介して取得します(Olsson, Drasgow, and Dorans 1982)。

Xを平均が$\mu $で分散が$\sigma ^{2}$の正規分布の観測連続変数、Yを非観測の連続変数、$\rho $XYの間のPearson相関とします。また、観測順序変数Dは、次の方法によりYから導かれるものと仮定します。

\[  D = \;  \left\{  \begin{array}{ll} d_{(1)} &  \mr{if} \, \,  Y < \tau _{1} \\ d_{(k)} &  \mr{if} \, \,  \tau _{k-1} \leq Y < \tau _{k}, \; \,  k=2, 3, \ldots , K-1 \\ d_{(K)} &  \mr{if} \, \,  Y \geq \tau _{K-1} \end{array} \right.  \]

ここで、$d_{(1)} < d_{(2)} < \ldots < d_{(K)}$は観測された順序値であり、$\tau _1 < \tau _2 < \ldots < \tau _{K-1}$は未知の順序しきい値です。

$N$個のオブザベーション$(x_ j, d_ j)$の標本から結合分布(X , D)を得るための最尤関数は次の式で表されます。

\[  L = \prod _{j=1}^{N} f( x_ j, d_ j) = \prod _{j=1}^{N} f(x_ j) \;  P(D=d_ j \;  | \;  x_ j)  \]

ここで、$f(x_ j)$は、平均が$\mu $で標準偏差が$\sigma $である正規密度関数(Drasgow, 1986)です。

$X=x_ j$におけるYの条件付き分布は、平均が$\rho z_ j$で分散が$1-\rho ^{2}$の正規分布になります。ここで、$z_ j= (x_ j - \mu ) / \sigma $は標準正規変量です。一般性を失うことなく、変数Yは標準正規分布に従うと仮定します。その場合、D$k$番目の順序値で$d_ j = d_{(k)}$ならば、結果として得られる密度は次のようになります。

\[  P(D=d_{(k)} \;  | \;  x_ j) = \;  \left\{  \begin{array}{ll} \Phi \left( \frac{\tau _1 - \rho z_ j}{\sqrt {1-\rho ^2}} \right) &  \mr{if} \; \,  k=1 \\ \Phi \left( \frac{\tau _ k - \rho z_ j}{\sqrt {1-\rho ^2}} \right) - \Phi \left( \frac{\tau _{k-1} - \rho z_ j}{\sqrt {1-\rho ^2}} \right) &  \mr{if} \; \,  k=2, 3, \ldots , K-1 \\ 1 - \Phi \left( \frac{\tau _{K-1} - \rho z_ j}{\sqrt {1-\rho ^2}} \right) &  \mr{if} \; \,  k=K \end{array} \right.  \]

ここで、$\Phi $は累積正規分布関数です。

Cox (1974)は、すべてのパラメータ$\mu $$\sigma $$\rho $および$\tau _1$, …, $\tau _{k-1}$の最尤推定値を導きます。$\mu $および$\sigma ^2$の最尤推定値は明示的に導けます。$\mu $の最尤推定値は標本平均となり、$\sigma ^2$の最尤推定値は標本分散となります。

\[  \frac{\sum _{j=1}^{N} (x_ j - \bar{x})^{2}}{N}  \]

残りのパラメータ(ポリシリアル相関$\rho $およびしきい値$\tau _1$, …, $\tau _{k-1}$を含む)の最尤推定値を計算するには、Cox (1974)に提唱された反復手順を使用します。$\rho $の最尤推定値の漸近標準誤差は、この手順の後に計算できます。

パラメータのベクトルとして、情報行列はHessian行列(対数尤度に関する第2次導関数の行列)の負定値となります。この行列は、これらのパラメータの最尤推定値の計算に使用されます。CORRプロシジャは、観測された情報行列(現在のパラメータ推定値で評価された情報行列)を使用して計算を行います。最尤推定値の導出後、これらのパラメータ推定値の漸近共分散行列が、観測された情報行列(最尤推定値で評価された情報行列)の逆行列として計算されます。

確率値

CORRプロシジャは、ポリシリアル相関がゼロであるかどうかを判定するために、Wald検定と尤度比(LR)検定という2種類の検定を計算します。

ポリシリアル相関の最尤推定値が$\hat{\rho }$で、その漸近標準誤差が$\mr{StdErr}(\hat{\rho })$である場合、Waldカイ2乗検定統計量は次の式で計算されます。

\[  \left( \frac{\hat{\rho }}{\mr{StdErr}(\hat{\rho })} \right)^{2}  \]

Wald統計量は、自由度が1の漸近カイ2乗分布に従います。

LR検定の場合、ポリシリアル相関がゼロであると仮定する最尤関数も必要となります。$\rho =0$である場合、この尤度関数は次のようにまとめられます。

\[  L = \prod _{j=1}^{N} f( x_ j, d_ j) = \prod _{j=1}^{N} f(x_ j) \;  \prod _{j=1}^{N} P(D=d_ j)  \]

この場合、すべてのパラメータの最尤推定値を明示的に導けます。$\mu $の最尤推定値は標本平均となり、$\sigma ^2$の最尤推定値は標本分散となります。

\[  \frac{\sum _{j=1}^{N} (x_ j - \bar{x})^{2}}{N}  \]

また、しきい値$\tau _ k$, k=1, …, K-1の最尤推定値は次の式で表されます。

\[  \Phi ^{-1} \left( \frac{\sum _{g=1}^{k} n_ g}{N} \right)  \]

ここで、$n_ g$は順序変数$D$$g$ 番目の順序グループにおけるオブザベーション数であり、$N=\sum _{g=1}^{K} n_ g$はオブザベーションの総数です。

LR検定統計量は次のように計算されます。

\[  -2 \;  \log \,  \left( \frac{L_0}{L_1} \right)  \]

ここで、$L_1$は、全パラメータの最尤推定値を使用する尤度関数です。$L_0$は、ポリシリアル相関を除く全パラメータの最尤推定値を使用する尤度関数であり、0に設定されます。LR統計量も、自由度が1の漸近カイ2乗分布に従います。