CORRプロシジャ

入門ガイド: CORRプロシジャ

次のステートメントは、複数の欠損値を含むように変更されたデータセットFitnessを作成します。

*----------------- Data on Physical Fitness -----------------*
| These measurements were made on men involved in a physical |
| fitness course at N.C. State University.                   |
| The variables are Age (years), Weight (kg),                |
| Runtime (time to run 1.5 miles in minutes), and            |
| Oxygen (oxygen intake, ml per kg body weight per minute)   |
| Certain values were changed to missing for the analysis.   |
*------------------------------------------------------------*;
data Fitness;
   input Age Weight Oxygen RunTime @@;
   datalines;
44 89.47 44.609 11.37    40 75.07 45.313 10.07
44 85.84 54.297  8.65    42 68.15 59.571  8.17
38 89.02 49.874   .      47 77.45 44.811 11.63
40 75.98 45.681 11.95    43 81.19 49.091 10.85
44 81.42 39.442 13.08    38 81.87 60.055  8.63
44 73.03 50.541 10.13    45 87.66 37.388 14.03
45 66.45 44.754 11.12    47 79.15 47.273 10.60
54 83.12 51.855 10.33    49 81.42 49.156  8.95
51 69.63 40.836 10.95    51 77.91 46.672 10.00
48 91.63 46.774 10.25    49 73.37   .    10.08
57 73.37 39.407 12.63    54 79.38 46.080 11.17
52 76.32 45.441  9.63    50 70.87 54.625  8.92
51 67.25 45.118 11.08    54 91.63 39.203 12.88
51 73.71 45.790 10.47    57 59.08 50.545  9.93
49 76.32   .      .      48 61.24 47.920 11.50
52 82.78 47.467 10.50
;

次のステートメントは、CORRプロシジャを呼び出し、相関分析を要求します。

ods graphics on;
proc corr data=Fitness plots=matrix(histogram);
run;
ods graphics off;

図2.1の表"Simple Statistics"に、分析変数の単変量統計量を示します。

図2.1: 単変量統計量

The CORR Procedure

4 Variables: Age Weight Oxygen RunTime

Simple Statistics
Variable N MEAN Std Dev SUM Minimum Maximum
Age 31 47.67742 5.21144 1478 38.00000 57.00000
Weight 31 77.44452 8.32857 2401 59.08000 91.63000
Oxygen 29 47.22721 5.47718 1370 37.38800 60.05500
RunTime 29 10.67414 1.39194 309.55000 8.17000 14.03000



デフォルトでは、他のステートメントでリストされていないすべての変数が分析に使用されます。変数の値が欠損値でないオブザベーションを使用して、その変数の単変量統計量が導びかれます。

図2.2の表"Pearson Correlation Coefficients"には、相関がゼロの帰無仮説の下のp値と、各変数ペアの値が欠損値以外であるオブザベーションの数が表示されます。

図2.2: Pearson相関係数

Pearson Correlation Coefficients
Prob > |r| under H0: Rho=0
Number of Observations
  Age Weight Oxygen RunTime
Age
1.00000
 
31
-0.23354
0.2061
31
-0.31474
0.0963
29
0.14478
0.4536
29
Weight
-0.23354
0.2061
31
1.00000
 
31
-0.15358
0.4264
29
0.20072
0.2965
29
Oxygen
-0.31474
0.0963
29
-0.15358
0.4264
29
1.00000
 
29
-0.86843
<.0001
28
RunTime
0.14478
0.4536
29
0.20072
0.2965
29
-0.86843
<.0001
28
1.00000
 
29



デフォルトでは、Pearson相関統計量は、分析変数の各ペアの値が欠損値でないオブザベーションから計算されます。図2.2は、RuntimeOxygen間の相関が-0.86843であること(p値が0.0001未満で有意)を示しています。これは、上記の2変数間に逆線形の関係があることを意味します。Runtime (1.5マイルを走るのにかかる時間(分単位))が増加すると、Oxygen (体重1kg当たりの毎分の酸素摂取量(ml単位))は減少します。

PLOTS=MATRIX(HISTOGRAM)オプションを指定すると、CORRプロシジャは、図2.3に示すような、分析変数の対称行列プロットを表示します。また、これらの分析変数のヒストグラムが、行列プロットの対角線上に表示されます。2変数OxygenおよびRuntime間の逆線形関係も、このプロット内に表示されます。

ODS Graphicsを有効にした上で、PLOTS=オプションを指定してグラフを作成する必要があります。ODS Graphicsの詳細は、SAS/STAT 13.2 User's GuideChapter 21: Statistical Graphics Using ODSを参照してください。

図2.3: 対象行列プロット

Symmetric Matrix Plot