FREQプロシジャ

定義と表記

二元表は、行変数Xと列変数Yからなるクロス集計表を表します。この表の行の値または水準を$X_ i$, $ i=1, 2, \ldots , R$で表し、列の値を$Y_ j$, $ j=1, 2, \ldots , C$で表します。$n_{ij}$は、i番目の行とj番目の列にある表セルの度数を表すものであり、次の表記を定義します。

\[  \begin{aligned}  n_{i \cdot } &  = \sum _ j n_{ij} & &  \mbox{(row totals)} \\ n_{\cdot j} &  = \sum _ i n_{ij} & &  \mbox{(column totals)} \\ n &  = \sum _ i \sum _ j n_{ij} & &  \mbox{(overall total)} \\ p_{ij} &  = n_{ij} / n & &  \mbox{(cell percentages)} \\ p_{i \cdot } &  = n_{i \cdot } / n & &  \mbox{(row percentages of total)} \\ p_{\cdot j} &  = n_{\cdot j} / n & &  \mbox{(column percentages of total)} \end{aligned}  \]
\[  \begin{aligned}  R_{i} &  = \mbox{score for row } i \\ C_{j} &  = \mbox{score for column } j \end{aligned}  \]
\[  \begin{aligned}  \bar{R} &  = \sum _ i n_{i \cdot } R_{i} / n & &  \mbox{(average row score)} \\ \bar{C} &  = \sum _ j n_{\cdot j} C_{j} / n & &  \mbox{(average column score)} \end{aligned}  \]
\[  \begin{aligned}  A_{ij} &  = \sum _{k>i} ~  \sum _{l>j} n_{kl} + \sum _{k<i} ~  \sum _{l<j} n_{kl} \\ D_{ij} &  = \sum _{k>i} ~  \sum _{l<j} n_{kl} + \sum _{k<i} ~  \sum _{l>j} n_{kl} \\ P &  = \sum _ i \sum _ j n_{ij} A_{ij} \quad \mbox{(twice the number of concordances)} \\ Q &  = \sum _ i \sum _ j n_{ij} D_{ij} \quad \mbox{(twice the number of discordances)} \end{aligned}  \]
スコア

FREQプロシジャは変数値のスコアを使用して、Mantel-Haenszelのカイ2乗、Pearsonの相関、Cochran-Armitageの傾向検定、重み付きカッパ係数、Cochran-Mantel-Haenszel統計量を計算します。TABLESステートメントのSCORES=オプションは、FREQプロシジャが使用するスコアの種類を指定します。利用可能なスコアの種類は、TABLE、RANK、RIDIT、MODRIDITです。デフォルトのスコアの種類はTABLEです。MODRIDITスコア、RANKスコア、RIDITスコアを使用すると、ノンパラメトリック分析を実施できます。

数値変数の場合、表スコアは、行および列水準の値となります。行変数および列変数がフォーマットされている場合、表スコアは、その水準に対応する内部数値となります。2つ以上の数値を同じフォーマットされた水準に分類する場合、その水準に対応する内部数値は、それらの数値の中の最小値となります。文字変数の場合、表スコアは行番号と列番号として定義されます(すなわち、最初の行は1、2番目の行は2、という具合になります)。

SCORES=RANKオプションで要求されるランクスコアは、次のように定義されます。

\[  \begin{aligned}  R^1_ i &  = \sum _{k<i} n_{k \cdot } + (n_{i \cdot } + 1) / 2 \quad & &  i = 1, 2, \ldots , R \\ C^1_ j &  = \sum _{l<j} n_{\cdot l} + (n_{\cdot j} + 1) / 2 \quad & &  j = 1, 2, \ldots , C \end{aligned}  \]

ここで、$R^1_ i$は行iのランクスコア、$C^1_ j$は列jのランクスコアです。ランクスコアは、タイ値に関しては中間のランクを生成します。

SCORES=RIDITオプションで要求されるリジッドスコアは、標本サイズで標準化されたランクスコアとして定義されます(Bross, 1958; Mack and Skillings, 1980)。リジッドスコアは、次の式により、ランクスコアから導かれます。

\[  \begin{aligned}  R^2_ i &  = R^1_ i / n \quad & &  i = 1, 2, \ldots , R \\ C^2_ j &  = C^1_ j / n \quad & &  j = 1, 2, \ldots , C \end{aligned}  \]

修正済みリジッドスコア(SCORES=MODRIDITにより要求される)は、区間(0,1)における一様分布の順序統計量の期待値を表します(van Elteren, 1960; Lehmann and D’Abrera, 2006)。修正済みリジッドスコアは、次の式により、ランクスコアから導かれます。

\[  \begin{aligned}  R^3_ i &  = R^1_ i / (n + 1) \quad & &  i = 1, 2, \ldots , R \\ C^3_ j &  = C^1_ j / (n + 1) \quad & &  j = 1, 2, \ldots , C \end{aligned}  \]