この例では、記述統計量と4種類の連関性の統計量を含む相関分析を実施します。これには、Pearsonの積率相関、Spearmanの順位相関、KendallのTau-b係数、Hoeffdingの従属統計量が含まれます。
Fitness
データセットは入門ガイド: CORRプロシジャのセクションで作成されたものであり、これには31名の参加者の体力調査から得られた測定値が含まれています。次のステートメントは、変数Weight
、Oxygen
、Runtime
の4種類の連関性の統計量すべてを計算します。
ods graphics on; title 'Measures of Association for a Physical Fitness Study'; proc corr data=Fitness pearson spearman kendall hoeffding plots=matrix(histogram); var Weight Oxygen RunTime; run; ods graphics off;
3つのノンパラメトリック相関(SPEARMAN、KENDALL、HOEFFDING)がどれも指定されない場合、デフォルトでPearsonの相関が計算されます。それ以外の場合、Pearsonの相関を計算するには、PEARSONオプションを明示的に指定する必要があります。
出力2.1.1の表"Simple Statistics"には、分析変数の単変量統計量が示されています。デフォルトでは、変数の値が欠損値でないオブザベーションを使用して、その変数の単変量統計量が得られます。連関性のノンパラメトリック統計量を指定した場合、追加の記述統計量として、合計ではなく中央値が表示されます。
出力2.1.2の表"Pearson Correlation Coefficients"には、分析変数ペアのPearsonの相関統計量が示されています。Pearsonの相関は、2つの連続ランダム変数の連関性のパラメトリックな統計量です。欠損データが存在する場合、相関の計算に使用されるオブザベーション数が異なることがあります。
この表では、Runtime
とOxygen
間のPearson相関が–0.86843であり、これはp値が0.0001未満で有意であることを示しています。これは2変数間に強い負の線形相関があることを意味します。Runtime
が増加すると、Oxygen
は直線的に減少します。
Spearmanの順位相関は、データ値の順位に基づいて計算される連関性のノンパラメトリックな統計量です。出力2.1.3の表"Spearman Correlation Coefficients"の内容は、出力2.1.2の表"Pearson Correlation Coefficients"の内容と同様になります。
KendallのTau-bは、ペアのオブザベーション内の一致と不一致の数に基づく連関性のノンパラメトリックな統計量です。 出力2.1.4の表"Kendall Tau b Correlation Coefficients"の内容は、出力2.1.2の表"Pearson Correlation Coefficients"の内容と同様になります。
Hoeffdingの従属統計量は、より一般的な独立性からの乖離を測る、連関性のノンパラメトリックな統計量です。変数にタイが存在しない場合、D統計量は–0.5から1までの間で変化します。ここで、1は完全従属を意味します。それ以外の場合、D統計量はより小さな値となります。出力2.1.5の表"Hoeffding Dependence Coefficients"に、Hoeffdingの従属統計量を示します。変数Weight
にタイが存在するため、Weight
変数のD統計量は1未満になります。
PLOTS=MATRIX(HISTOGRAM)オプションを指定すると、CORRプロシジャは、VARステートメントに指定された分析変数の対称行列プロット(出力2.1.6)を表示します。
Oxygen
とRuntime
間に強い負の線形相関があることが、出力2.1.6から明らかです。
このグラフ表示を要求するには、ODS Graphicsを有効にし、PLOTS=オプションを指定します。ODS Graphicsの詳細は、SAS/STAT 13.2 User's GuideのChapter 21: Statistical Graphics Using ODSを参照してください。