CORRプロシジャ

信頼楕円と予測楕円

2つの変数間の関係が非線形である場合、または外れ値が存在する場合、この相関係数は関係の強度を誤って推定することがあります。データをプロットすることにより、線形関係を検証し、潜在的な外れ値を特定できます。

PARTIALステートメントで変数を補正した後の2変数間の偏相関は、影響を除外したい変数(コントロール変数)に関する2変数の線形回帰の残差間の相関に等しくなります。このため、PARTIALステートメントを指定した場合、分析変数の残差が散布図行列および散布図に表示されます。

CORRプロシジャはオプションで、散布図内の変数ペアごとに2種類の楕円を提供します。1つは母集団平均の信頼楕円であり、もう1つは新しいオブザベーションに関する予測楕円です。両方とも、2変量正規分布を仮定します。

$\bar{\mb{Z}}$および$\mb{S}$を、平均が$\bmu $共分散行列が$\bSigma $である2変量正規分布から抽出したランダムな標本サイズnに関する標本平均および標本共分散行列とします。変数$\bar{\mb{Z}}-\bmu $は、平均がゼロで共分散が$(1/n) \bSigma $の2変量正規変数として分布され、$\mb{S}$とは独立になります。次の式で定義されるHotellingの$T^2$統計量を使用すると、

\[  T^2 = n (\bar{\mb{Z}}-\bmu )’ {\bS }^{-1} (\bar{\mb{Z}}-\bmu )  \]

$\bmu $に関する$100(1-\alpha )\% $の信頼楕円は、次の式により計算されます。

\[  \frac{n}{n-1} (\bar{\mb{Z}}-\bmu )’ {\bS }^{-1} (\bar{\mb{Z}}-\bmu ) = \frac{2}{n-2} F_{2,n-2}(1-\alpha )  \]

ここで、$F_{2,n-2}(1-\alpha )$は、自由度2およびn-2を持つF分布の$(1-\alpha )$臨界値です。

予測楕円とは、母集団内の新しいオブザベーションを予測するための領域です。またこれは、母集団の特定の割合を含む領域を近似します。

新しいオブザベーションを、2変量ランダム変数$\bZ _\mr {new}$として表します。次の変数

\[  \mb{Z}_\mr {new} - \bar{\mb{Z}} = (\mb{Z}_\mr {new}-\bmu ) - (\bar{\mb{Z}}-\bmu )  \]

は平均がゼロ(ゼロベクトル)で共分散が$(1+1/n) \bSigma $の2変量正規変数として分布され、$\mb{S}$とは独立になります。この場合、$100(1-\alpha )\% $の予測楕円は次の式で表されます。

\[  \frac{n}{n-1} (\bar{\mb{Z}}-\bmu )’ \mb{S}^{-1} (\bar{\mb{Z}}-\bmu ) = \frac{2(n+1)}{n-2} F_{2,n-2}(1-\alpha )  \]

$F$分布の様々な臨界値により生成される楕円のファミリは、共通の中心(標本平均)および共通の長軸方向と短軸方向を持ちます。

楕円の形状は、プロットの縦横比に依存します。2変数をそれぞれの標準偏差で除算することにより変数を標準化している場合、楕円はこれら2変数間の相関を示します。この場合、長軸長および短軸長間の比は次の式で表されます。

\[  \sqrt {\frac{1+|r|}{1-|r|}}  \]

特に、r=0の場合、この比は1となります。これは、環状の信頼線に対応し、2変数が無相関であることを意味します。 この比の値が大きいほど、2変数間に大きな正または負の相関があることを意味します。