CORRプロシジャ

Fisherのz変換

標本相関rが相関$\rho = 0$の2変量正規分布からの標本を使用する場合、次の統計量

\[  t_ r \,  = \,  {(n-2)}^{1/2} \,  {\left(\frac{r^{2}}{1-r^{2}}\right)}^{1/2}  \]

は、自由度がn-2であるStudentのt分布に従います。

相関rの単調変換(Fisher, 1921)の場合、

\[  z_ r \,  = \,  {\tanh }^{-1} ( r ) \,  = \,  \frac{1}{2} \,  \log \left( \frac{1+r}{1-r} \right)  \]

統計量zは、次の平均と分散を持つ近似正規分布に従います。

\[  E(z_ r) \,  = \,  \zeta \,  + \,  \frac{\rho }{2(n-1)}  \]
\[  V(z_ r) \,  = \,  \frac{1}{n-3}  \]

ここで、${\zeta } = {\tanh }^{-1} ({\rho })$です。

変換された$z_ r$では、近似分布$V(z_ r) = 1/(n-3)$は相関$\rho $から独立になります。また、$z_ r$の分布が厳密な正規分布ではない場合であっても、$\rho $の任意の値の標本サイズが大きくなると、同分布は急速に正規性を持つようになります(Fisher, 1973, pp. 200–201)。

帰無仮説$H_0\colon \rho ={\rho }_{0}$で、p値を計算するには、次の式

\[  z_ r - {\zeta }_{0} - \frac{{\rho }_{0}}{2(n-1)}  \]

を平均ゼロで分散が$1/(n-3)$である正規ランダム変数として扱います。ここで、${\zeta }_{0} = {\tanh }^{-1} ({\rho }_{0})$です(Fisher 1973, p. 207; Anderson 1984, p. 123)。

CORRプロシジャでは、帰無仮説$H_0\colon \rho =\rho _{0}$に基づいてp値を計算する場合、必ずバイアス調整${\rho }_{0}/(2(n-1))$が使用されます。

FISHERオプション内のALPHA=オプションは、信頼水準$1-\alpha $の値$\alpha $を指定します。RHO0=オプションは、帰無仮説$H_0\colon \rho ={\rho }_{0}$での値$\rho _{0}$を指定します。BIASADJ=オプションは、信頼限界でバイアス調整を使用するかどうかを指定します。

TYPE=オプションは、信頼限界の種類を指定します。TYPE=TWOSIDEDオプションは、帰無仮説$H_0\colon \rho ={\rho }_{0}$の下での両側信頼限界とp値を要求します。片側信頼限界の場合、TYPE=LOWERオプションは、帰無仮説$H_0\colon \rho <={\rho }_{0}$の下での下側信頼限界とp値を要求します。TYPE=UPPERオプションは、帰無仮説$H_0\colon \rho >={\rho }_{0}$の下での上側信頼限界とp値を要求します。

相関に対する信頼限界

相関$\rho $の信頼限界は、バイアス調整の有無にかかわらず、パラメータ$\zeta $の信頼限界を介して導かれます。

バイアス調整を行わない場合、$\zeta $の信頼限界を計算するには、次の式

\[  z_ r - \zeta  \]

が平均ゼロで分散が$1/(n-3)$である正規分布に従うものとして扱います。

すなわち、$\zeta $の両側の信頼限界は次のように計算されます。

\[  {\zeta }_ l = z_ r - z_{(1-\alpha /2)} \,  \sqrt {\frac{1}{n-3}}  \]
\[  {\zeta }_ u = z_ r + z_{(1-\alpha /2)} \,  \sqrt {\frac{1}{n-3}}  \]

ここで、$z_{(1-\alpha /2)}$は標準正規分布の$100(1-\alpha /2)$番目のパーセント点です。

バイアス調整を行う場合、$\zeta $の信頼限界を計算するには、次の式

\[  z_ r - \zeta - \mr{bias}(r)  \]

が平均ゼロで分散が$1/(n-3)$である正規分布を従うものとして扱います。ここで、バイアス調整関数(Keeping, 1962, p. 308)は次のようになります。

\[  \mr{bias}(r_ r) = \frac{r}{2(n-1)}  \]

すなわち、$\zeta $の両側の信頼限界は次のように計算されます。

\[  {\zeta }_ l = z_ r - \mr{bias}(r) - z_{(1-\alpha /2)} \,  \sqrt {\frac{1}{n-3}}  \]
\[  {\zeta }_ u = z_ r - \mr{bias}(r) + z_{(1-\alpha /2)} \,  \sqrt {\frac{1}{n-3}}  \]

続いて、上記の${\zeta }_ l$および${\zeta }_ u$に関して計算された信頼限界の変換を元に戻すことにより、相関$\rho $の信頼限界が導かれます。

\[  r_{l} = \tanh ( {\zeta }_{l} ) = \frac{ \exp ( 2 {\zeta }_{l}) -1}{ \exp ( 2 {\zeta }_{l}) +1}  \]
\[  r_{u} = \tanh ( {\zeta }_{u} ) = \frac{ \exp ( 2 {\zeta }_{u}) -1}{ \exp ( 2 {\zeta }_{u}) +1}  \]

バイアス調整を行う場合、CORRプロシジャは次のような相関推定値も表示します。

\[  r_{adj} = \tanh ( z_ r - \mr{bias}(r) )  \]

Fisherのz変換の応用

Fisher (1973, p. 199)は、次に示すようなz変換の具体的な応用を紹介しています。

  • 母集団相関が指定の値に等しいかどうかのテスト

  • 2つの母集団相関が等しいかどうかのテスト

  • 異なる標本から計算した相関推定値の結合

オブザベーション数が$n_1$で標本相関が$r_1$である標本からの母集団相関$\rho _1$が、与えられた$\rho _{0}$に等しい場合、まず$r_1$および$\rho _{0}$: $z_{1} = {\tanh }^{-1} (r_{1})$および${\zeta }_{0} = {\tanh }^{-1} ({\rho }_{0})$に対してz変換を適用します。

続いて、p値を計算するには、次の式

\[  z_1 - {\zeta }_{0} - \frac{{\rho }_{0}}{2(n_{1}-1)}  \]

が平均ゼロで分散が$1/(n_{1}-3)$である正規分布に従うものとして扱います。

標本推定値$r_{1}$および$r_{2}$は、それぞれ$n_1$および$n_2$というオブザベーションの2つの独立した標本から計算されます。2つの母集団相関$\rho _1$および$\rho _2$が等しいかどうかをテストするには、まずz変換を2つの標本相関である$z_{1} = {\tanh }^{-1} (r_{1})$および$z_{2} = {\tanh }^{-1} (r_{2})$に対して適用します。

p値は、等しい相関の帰無仮説の下で導かれます。すなわち、差$z_{1} - z_{2}$は、平均がゼロで分散が$1/(n_{1}-3) + 1/(n_{2}-3)$である正規ランダム変数として分布されます。

さらに、2つの標本が同じ相関をもつ母集団から抽出されたと仮定すると、結合された相関推定値を計算できます。z値の重み付き平均は次の式で表されます。

\[  \bar{z} = \frac{(n_{1}-3) z_{1} + (n_{2} -3) z_{2}}{n_{1}+n_{2}-6}  \]

ここで、重みは、それらの分散に対して反比例します。

このため、結合された相関推定値は、$\bar{r} = {\tanh } (\bar{z})$および$V(\bar{z}) = 1 / (n_{1} + n_{2} -6)$となります。これらの応用に関する詳細は、例2.4を参照してください。

なお、この手法は、複数の標本を含めるように拡張できます。