出力形式(フォーマット)を利用したときのFREQプロシジャにおけるテーブルスコアの値について
[OS] ALL
[リリース] ALL
[キーワード] FREQ , CMH, p-value, Table Score, format
[質問]数値変数をグループ化するために、FORMATステートメントを使用して出力形式(フォーマット)を与えた場合と、DATAステップを用いた場合では、Cochran-Mantel-Haenszel検定の結果が異なります。これはなぜでしょうか。 ● 実行プログラム例 proc format; value agefmt low-49 = "1" 50-59 = "2" 60-69 = "3" 70-high= "4"; run; data a; input dose age @@; cards; 1 74 2 69 1 51 2 78 2 60 1 59 2 59 2 56 1 67 2 53 2 68 1 71 1 77 2 65 1 59 2 56 1 50 2 66 1 57 2 56 1 67 2 64 2 59 1 63 1 45 2 79 2 58 ; run; /* FORMATステートメントを利用してグループ化した場合 */ proc freq data=a; tables dose*age / cmh; format age agefmt.; run; data b; set a; if age <= 49 then _age=1; else if age <= 59 then _age=2; else if age <= 69 then _age=3; else _age=4; run; /* DATAステップを利用してグループ化した場合 */ proc freq data=b; tables dose*_age / cmh; run; ● 結果/出力形式(フォーマット)を使用した場合 dose と age の要約統計量 Cochran-Mantel-Haenszel 統計量( テーブルスコアに基づく ) 統計量 対立仮説 自由度 値 p 値 ---------------------------------------------------------------- 1 相関統計量 1 0.0275 0.8683 2 ANOVA 統計量 1 0.0275 0.8683 3 一般連関統計量 3 2.1450 0.5429 サンプルサイズの合計 = 27 ● 結果/DATAステップを利用してグループ化した場合 dose と _age の要約統計量 Cochran-Mantel-Haenszel 統計量( テーブルスコアに基づく ) 統計量 対立仮説 自由度 値 p 値 ---------------------------------------------------------------- 1 相関統計量 1 0.0000 1.0000 2 ANOVA 統計量 1 0.0000 1.0000 3 一般連関統計量 3 2.1450 0.5429 サンプルサイズの合計 = 27
[回答]連続変数に出力形式(フォーマット)を与えたとき、テーブルスコアは各グループの数値の中で一番小さな値に設定されます。このため、Cochran-Mantel-Haenszel検定だけではなく、Cochran-mantelのカイ2乗検定、Cochran-Armitageの傾向検定、および重み付きカッパ統計量の計算などにも影響があります。 上記の例については、最初のFREQプロシジャでは次のようにテーブルスコアが与えられるため、DATAステップによるグループ化に基づく結果とは異なります。また、この内容は、TABLESステートメントでSCOROUTオプションを指定することによって確認できます。 age Table Score --------------------------------- -49 45 50-59 50 60-69 60 70- 71 なお、SASデータセットbを作成するDATAステップで、変数_ageに45,50,60,71という数値を与えてからFREQプロシジャを実行すれば、出力形式を使用したときと検定の結果は一致します。
|