FREQプロシジャ

Jonckheere-Terpstra検定

TABLESステートメントでJTオプションを指定すると、クラス間の順序付き差異のノンパラメトリック検定であるJonckheere-Terpstra検定を実施できます。これは、応答変数の分布がクラス間で変化しないという帰無仮説を検定するものです。 この検定は、順序付きのクラス差異の対立仮説を検出します。この対立仮説は、少なくとも1つの厳密な不等式を持つ$\tau _{1} \leq \tau _{2} \leq \cdots \leq \tau _{R}$ (または$\tau _{1} \geq \tau _{2} \geq \cdots \geq \tau _{R}$)として表されます。ここで、$\tau _{i}$はクラスiの効果を表します。このような順序付きの対立仮説の場合、Jonckheere-Terpstra検定の方が、Kruskal–Wallis検定(NPAR1WAYプロシジャのWILCOXONオプションにより実施されるもの)のような一般的なクラス差異の検定よりも適しています。Jonckheere-Terpstra検定に関する詳細は、Pirie (1983)およびHollander and Wolfe (1999)を参照してください。

Jonckheere-Terpstra検定は、順序列変数が応答を表すような二元表に適しています。 行変数(名義変数または順序変数のいずれか)は分類変数を表します。行変数の2つの水準は、検定により検出させたい順序に従って順序付けされている必要があります。変数水準の順序は、PROC FREQステートメントのORDER=オプションにより指定されます。デフォルトではORDER=INTERNALであり、フォーマットされていない値により順序付けが行われます。ORDER=DATAを指定すると、FREQプロシジャは、入力データセットの順序に従って値を並べかえます。変数水準の順序付け方法に関する詳細は、ORDER=オプションの説明を参照してください。

Jonckheere-Terpstra検定統計量を計算するには、まず$R(R-1)/2$のMann-Whitneyカウントである$ M_{i,i^\prime }$を形成します。ここで、$ i < i^\prime $であり、分割表内の行のペアの場合は次のように表されます。

\begin{eqnarray*}  M_{i,i^\prime } &  = \hspace{.2in} \{  &  \mbox{number of times } X_{i,j} < X_{i^\prime ,j^\prime }, \hspace{.1in} j=1,\ldots ,n_{i.}; \hspace{.08in} j^\prime =1,\ldots ,n_{i^\prime .} ~  \}  \\ &  + \hspace{0.05in} \frac{1}{2} \hspace{.1in} \{  &  \mbox{number of times } X_{i,j} = X_{i^\prime ,j^\prime }, \hspace{.1in} j=1,\ldots ,n_{i.}; \hspace{.08in} j^\prime =1,\ldots ,n_{i^\prime .} ~  \}  \end{eqnarray*}

ここで、$X_{i,j}$は、行i内の応答jです。Jonckheere-Terpstra検定統計量は次のように計算されます。

\[  J = \sum _{1 \leq i <} \sum _{i^\prime \leq R} M_{i,i^\prime }  \]

この検定は、Jの値が大きい場合にはクラス間で差異がないという帰無仮説を棄却します。Jonckheere-Terpstra検定の漸近p値は、標準化された検定統計量の分布に対する正規近似を使用することにより導かれます。標準化された検定統計量は次のように計算されます。

\[  J^\ast = \left( J - \mr{E}_0(J) \right) ~  / ~  \sqrt {\mr{Var}_0(J)}  \]

ここで、$\mr{E}_0(J)$および$\mr{Var}_0(J)$は、次の帰無仮説の下での検定統計量の期待値と分散になります。

\[  \mr{E}_0(J) = \left( n^2 - \sum _{i}n_{i \cdot }^2 \right) / 4  \]
\[  \mr{Var}_0(J) = A / 72 + B / \left( 36n(n-1)(n-2) \right) + C / \left( 8n(n-1) \right)  \]

ここで、

\[  A = n(n-1)(2n+5) - \sum _{i}n_{i \cdot }(n_{i \cdot }-1)(2n_{i \cdot }+5) - \sum _{j}n_{\cdot j}(n_{\cdot j}-1)(2n_{\cdot j}+5)  \]
\[  B = \left(\sum _{i}n_{i \cdot }(n_{i \cdot }-1)(n_{i \cdot }-2) \right) \left(\sum _{j}n_{\cdot j}(n_{\cdot j}-1)(n_{\cdot j}-2) \right)  \]
\[  C = \left(\sum _{i}n_{i \cdot }(n_{i \cdot }-1) \right) \left(\sum _{j}n_{\cdot j}(n_{\cdot j}-1) \right)  \]

FREQプロシジャは、Jonckheere-Terpstra検定の片側および両側のp値を計算します。標準化された検定統計量がその帰無仮説の期待値ゼロよりも大きい場合、FREQプロシジャは右側p値を表示します。これは、帰無仮説の下で統計量の大きな値が発生する確率になります。小さい右側p値は、行1から行Rへと順序が上昇するという対立仮説を支持します。この標準化された検定統計量がゼロ以下である場合、FREQプロシジャは、左側p値を表示します。小さい左側p値は、行1から行Rへと順序が下降するという対立仮説を支持します。

Jonckheere-Terpstra検定の片側p$P_1$は、次のように計算されます。

\begin{equation*}  P_1 = \begin{cases}  \mr{Prob} (Z > J^\ast ) \quad \mr{if} \hspace{.1in} J^\ast > 0 \\ \mr{Prob} (Z < J^\ast ) \quad \mr{if} \hspace{.1in} J^\ast \leq 0 \\ \end{cases}\end{equation*}

ここで、Zは標準正規分布を持ちます。両側のp$P_2$は、次のように計算されます。

\[  P_{2} = \mr{Prob} (|Z| > |J^\ast |)  \]

FREQプロシジャは、Jonckheere-Terpstra検定の正確なp値も計算します。この正確検定を要求するには、EXACTステートメントでJTオプションを指定します。 詳細は、正確な統計量のセクションを参照してください。