CORRプロシジャ

例2.1 4種類の連関性の統計量を計算

この例では、記述統計量と4種類の連関性の統計量を含む相関分析を実施します。これには、Pearsonの積率相関、Spearmanの順位相関、KendallのTau-b係数、Hoeffdingの従属統計量$D$が含まれます。

Fitnessデータセットは入門ガイド: CORRプロシジャのセクションで作成されたものであり、これには31名の参加者の体力調査から得られた測定値が含まれています。次のステートメントは、変数WeightOxygenRuntimeの4種類の連関性の統計量すべてを計算します。

ods graphics on;
title 'Measures of Association for a Physical Fitness Study';
proc corr data=Fitness pearson spearman kendall hoeffding
          plots=matrix(histogram);
   var Weight Oxygen RunTime;
run;
ods graphics off;

3つのノンパラメトリック相関(SPEARMAN、KENDALL、HOEFFDING)がどれも指定されない場合、デフォルトでPearsonの相関が計算されます。それ以外の場合、Pearsonの相関を計算するには、PEARSONオプションを明示的に指定する必要があります。

出力2.1.1の表"Simple Statistics"には、分析変数の単変量統計量が示されています。デフォルトでは、変数の値が欠損値でないオブザベーションを使用して、その変数の単変量統計量が得られます。連関性のノンパラメトリック統計量を指定した場合、追加の記述統計量として、合計ではなく中央値が表示されます。

出力2.1.1: Simple Statistics

Measures of Association for a Physical Fitness Study

The CORR Procedure

3 Variables: Weight Oxygen RunTime

Simple Statistics
Variable N MEAN Std Dev Median Minimum Maximum
Weight 31 77.44452 8.32857 77.45000 59.08000 91.63000
Oxygen 29 47.22721 5.47718 46.67200 37.38800 60.05500
RunTime 29 10.67414 1.39194 10.50000 8.17000 14.03000



出力2.1.2の表"Pearson Correlation Coefficients"には、分析変数ペアのPearsonの相関統計量が示されています。Pearsonの相関は、2つの連続ランダム変数の連関性のパラメトリックな統計量です。欠損データが存在する場合、相関の計算に使用されるオブザベーション数が異なることがあります。

出力2.1.2 Pearson Correlation Coefficients

Pearson Correlation Coefficients
Prob > |r| under H0: Rho=0
Number of Observations
  Weight Oxygen RunTime
Weight
1.00000
 
31
-0.15358
0.4264
29
0.20072
0.2965
29
Oxygen
-0.15358
0.4264
29
1.00000
 
29
-0.86843
<.0001
28
RunTime
0.20072
0.2965
29
-0.86843
<.0001
28
1.00000
 
29



この表では、RuntimeOxygen間のPearson相関が–0.86843であり、これはp値が0.0001未満で有意であることを示しています。これは2変数間に強い負の線形相関があることを意味します。Runtimeが増加すると、Oxygenは直線的に減少します。

Spearmanの順位相関は、データ値の順位に基づいて計算される連関性のノンパラメトリックな統計量です。出力2.1.3の表"Spearman Correlation Coefficients"の内容は、出力2.1.2の表"Pearson Correlation Coefficients"の内容と同様になります。

出力2.1.3: Spearman Correlation Coefficients

Spearman Correlation Coefficients
Prob &gt; |r| under H0: Rho=0
Number of Observations
  Weight Oxygen RunTime
Weight
1.00000
 
31
-0.06824
0.7250
29
0.13749
0.4769
29
Oxygen
-0.06824
0.7250
29
1.00000
 
29
-0.80131
<.0001
28
RunTime
0.13749
0.4769
29
-0.80131
<.0001
28
1.00000
 
29



KendallのTau-bは、ペアのオブザベーション内の一致と不一致の数に基づく連関性のノンパラメトリックな統計量です。 出力2.1.4の表"Kendall Tau b Correlation Coefficients"の内容は、出力2.1.2の表"Pearson Correlation Coefficients"の内容と同様になります。

出力2.1.4: Kendall’s Tau-b Correlation Coefficients

Kendall Tau b Correlation Coefficients
Prob > |tau| under H0: Tau=0
Number of Observations
  Weight Oxygen RunTime
Weight
1.00000
 
31
-0.00988
0.9402
29
0.06675
0.6123
29
Oxygen
-0.00988
0.9402
29
1.00000
 
29
-0.62434
<.0001
28
RunTime
0.06675
0.6123
29
-0.62434
<.0001
28
1.00000
 
29



Hoeffdingの従属統計量$D$は、より一般的な独立性からの乖離を測る、連関性のノンパラメトリックな統計量です。変数にタイが存在しない場合、D統計量は–0.5から1までの間で変化します。ここで、1は完全従属を意味します。それ以外の場合、D統計量はより小さな値となります。出力2.1.5の表"Hoeffding Dependence Coefficients"に、Hoeffdingの従属統計量を示します。変数Weightにタイが存在するため、Weight変数のD統計量は1未満になります。

出力2.1.5: Hoeffding’s Dependence Coefficients

Hoeffding Dependence Coefficients
Prob > D under H0: D=0
Number of Observations
  Weight Oxygen RunTime
Weight
0.97690
<.0001
31
-0.00497
0.5101
29
-0.02355
1.0000
29
Oxygen
-0.00497
0.5101
29
1.00000
 
29
0.23449
<.0001
28
RunTime
-0.02355
1.0000
29
0.23449
<.0001
28
1.00000
 
29



PLOTS=MATRIX(HISTOGRAM)オプションを指定すると、CORRプロシジャは、VARステートメントに指定された分析変数の対称行列プロット(出力2.1.6)を表示します。

出力2.1.6: 対称散布図行列

対称散布図行列


OxygenRuntime間に強い負の線形相関があることが、出力2.1.6から明らかです。

このグラフ表示を要求するには、ODS Graphicsを有効にし、PLOTS=オプションを指定します。ODS Graphicsの詳細は、SAS/STAT 13.2 User's GuideChapter 21: Statistical Graphics Using ODSを参照してください。