CORRプロシジャ

PROC CORRステートメント

PROC CORR <options>;

表2.1に、PROC CORRステートメントで使用できるオプションとその概要を示します。

表2.1: PROC CORRオプションの概要

オプション	説明
データセット
DATA=	入力データセットを指定
OUTH=	Hoeffdingの $D$ 統計量を含む出力データセットを指定
OUTK=	Kendall相関統計量を含む出力データセットを指定
OUTP=	Pearson相関統計量を含む出力データセットを指定
OUTPLC=	ポリコリック相関統計量を含む出力データセットを指定
OUTPLS=	ポリシリアル相関統計量を含む出力データセットを指定
OUTS=	Spearman相関統計量を含む出力データセットを指定
統計解析
EXCLNPWGT	重み値が正でないオブザベーションを分析から除外
FISHER	Fisherのz変換を使用して相関統計量を要求
HOEFFDING	Hoeffdingの従属統計量Dを要求
KENDALL	KendallのTau-bを要求
NOMISS	欠損値があるオブザベーションを分析から除外
PEARSON	Pearsonの積率相関を要求
POLYCHORIC	ポリコリック相関を要求
POLYSERIAL	ポリシリアル相関を要求
SPEARMAN	Spearmanの順位相関を要求
Pearson相関統計量
ALPHA	Cronbachのアルファ係数を計算
COV	共分散を計算
CSSCP	修正済み平方和と交差積を計算
FISHER	Fisherのz変換に基づいて相関統計量を計算
SINGULAR=	特異性の基準を指定
SSCP	平方和と交差積を計算
VARDEF=	分散の計算のための分母を指定
ODS出力グラフィックス
PLOTS=MATRIX	散布図行列を表示
PLOTS=SCATTER	変数ペアの散布図を表示
出力
BEST=	指定された数の順書相関係数を表示
NOCORR	Pearson相関を非表示
NOPRINT	すべての出力を非表示
NOPROB	p値を非表示
NOSIMPLE	記述統計量を非表示
RANK	順序相関係数を表示

PROC CORRステートメントでは、次のオプションを使用できます。オプションの説明はアルファベット順に示されています。

ALPHA

Cronbachのα係数(信頼性係数)を計算し表示します。CORRプロシジャは、元データの値を用いたものと標準化した値(平均０、分数１に標準化した値)を用いたものの２種類の信頼性係数を算出します。各VARステートメントの変数に対して、１変数とそれ以外の変数の合計との相関を計算します。また、１変数を除いた時のα係数を計算します。

WITHステートメントが指定されている場合、ALPHAオプションは無効です。ALPHAオプションを指定すると、Pearson相関も表示されます。OUTP=オプションを指定すると、出力データセットには、Cronbachのα係数を示すオブザベーションも含まれます。PARTIALステートメントを使用すると、CORRプロシジャは影響を除外した後の変数に対してCronbachのα係数を計算します。詳細は、偏相関のセクションを参照してください。

BEST=n

上位n個の相関係数を、 $n \geq 1$ の変数ごとに表示します。相関は、絶対値の大きい順に並べられます。このオプションを指定しない場合、CORRプロシジャは、変数名を行と列のラベルとした表形式で相関を表示します。

HOEFFDINGオプションを指定すると、CORRプロシジャは降順に $D$ 統計量を表示します。

COV

分散および共分散行列を表示します。COVオプションを指定すると、Pearson相関も表示されます。 OUTP=オプションを指定すると、出力データセットには、変数_TYPE_の値がCOVである共分散行列が含まれます。PARTIALステートメントを使用すると、CORRプロシジャは偏共分散行列を計算します。

CSSCP

修正済み平方和と交差積を表示します。CSSCPオプションを指定すると、Pearson相関も表示されます。OUTP=オプションを指定すると、出力データセットには、変数_TYPE_の値がCSSCPであるCSSCP行列が含まれます。PARTIALステートメントを使用すると、CORRプロシジャはCSSCP行列と偏CSSCP行列の両方を表示し、出力データセットには偏CSSCP行列が含まれます。

DATA=SAS-data-set

CORRプロシジャで分析対象とするSASデータセットを指定します。デフォルトでは、このプロシジャは最後に作成されたSASデータセットを使用します。

EXCLNPWGT EXCLNPWGTS

欠損値があるオブザベーションを分析から除外します。デフォルトでは、CORRプロシジャは重みが負のオブザベーションを重みが0のものと同様に扱い、オブザベーションの総数に加えます。

FISHER <(fisher-options)>

指定の帰無仮説 $H_0\colon \rho = \rho _0$ の下で、信頼限界とp値を要求します。相関係数の計算にはFisherのz変換を使用します。これらの相関には、Pearson相関とSpearman相関が含まれます。

fisher-optionsには次のオプションを指定できます。

ALPHA= $\alpha$: 相関の信頼限界の水準 $100(1-\alpha )\%$ を指定します。ALPHA=オプションの値は0から1までの範囲内でなければなりません。デフォルト値はALPHA=0.05です。
BIASADJ=YES | NO: 信頼限界の計算時にバイアス調整を使用するかどうかを指定します。BIASADJ=YESオプションを指定すると、バイアス調整を使用した新しい相関推定値が生成されます。デフォルト値はBIASADJ=YESです。
RHO0= ${\rho }_{0}$: 帰無仮説 $H_0\colon \rho = {\rho }_{0}$ の値 ${\rho }_{0}$ を指定します。ここで、 $-1 < {\rho }_{0} < 1$ です。デフォルト値はRHO0=0です。
TYPE=LOWER | UPPER | TWOSIDED: 信頼限界の種類を指定します。TYPE=LOWERオプションは、対立仮説 $H_1\colon \rho > \rho _{0}$ に対する片側仮説 $H_0\colon \rho \le \rho _{0}$ の検定の下側信頼限界を要求し、TYPE=UPPERオプションは、対立仮説 $H_1\colon \rho < \rho _{0}$ に対する片側仮説 $H_0\colon \rho \ge \rho _{0}$ の検定の上側信頼限界を要求し、デフォルトのTYPE=TWOSIDEDオプションは、仮説 $H_0\colon \rho = \rho _{0}$ の検定の両側信頼限界を要求します。

HOEFFDING

HoeffdingのD統計量の表を要求します。このD統計量では、独立性が大きな正数値でのみ示されるように、通常の公式の結果を30倍にして、値の範囲を–0.5から1までの間としています。WEIGHTステートメントまたはPARTIALステートメントを使用する場合、HOEFFDINGオプションは無効となります。

KENDALL

2つのオブザベーション間の一致および不一致の数に基づいて、KendallのTau-b係数を求めます。KendallのTau-bの範囲は、-1から1までです。

WEIGHTステートメントを使用する場合、KENDALLオプションは無効となります。PARTIALステートメントを使用する場合、Kendallの偏Tau-bの有意確率は取得できません。

NOCORR

Pearson相関を表示しません。OUTP=オプションを指定すると、データセットの種類はCORRのままになります。データセットの種類をCOV、CSSCP、SSCPのいずれかに変更するには、TYPE=データセットオプションを使用します。

NOMISS

欠損値があるオブザベーションを分析から除外します。除外しない場合は、CORRプロシジャは変数のすべての非欠損変数の対を使用して相関統計量を計算します。NOMISSオプションを使用すると、計算効率が向上します。

NOPRINT

すべての表示出力(ODS Graphicsによる出力を含む)を抑制します。出力データセットのみを作成する場合は、NOPRINTオプションを使用します。

NOPROB

各相関係数の有意確率の表示を抑制します。

NOSIMPLE

各変数の要約記述統計量の表示を抑制します。ただし、出力データセットを要求する場合は、出力データセットには、変数の要約記述統計量が含まれます。

OUTH=output-data-set

Hoeffdingの $D$ 統計量を含む出力データセットを作成します。出力データセットの内容は、OUTP=で指定したデータセットの内容と同様になります。OUTH=オプションを指定すると、Hoeffdingの $D$ 統計量が表示されます。

OUTK=output-data-set

Kendallの相関統計量を含む出力データセットを作成します。出力データセットの内容は、OUTP=で指定したデータセットの内容と同様になります。OUTK=オプションを指定すると、Kendallの相関統計量が表示されます。

OUTP=output-data-set OUT=output-data-set

Pearsonの相関統計量を含む出力データセットを作成します。このデータセットには、平均、標準偏差、およびオブザベーション数も含まれます。_TYPE_変数の値は、CORRです。OUTP=オプションを指定すると、Pearson相関も表示されます。ALPHAオプションを指定する場合は、出力データセットには、Cronbachのα係数を示す6つのオブザベーションも含まれます。

OUTPLC=output-data-set

ポリコリック相関統計量を含む出力データセットを作成します。(2つの観測2値変数間のポリコリック相関は、テトラコリック相関とも呼ばれます。) このデータセットには、平均、標準偏差、およびオブザベーション数も含まれます。_TYPE_変数の値は、CORRです。

OUTPLS=output-data-set

ポリシリアル相関統計量を含む出力データセットを作成します。出力データセットの内容は、OUTPLC=で指定したデータセットの内容と同様になります。

OUTS=SAS-data-set

Spearmanの相関係数を含む出力データセットを作成します。出力データセットの内容は、OUTP=で指定したデータセットの内容と同様になります。OUTS=オプションを指定すると、Spearmanの相関係数が表示されます。

PEARSON

Pearsonの積率相関を求めます。相関係数の範囲は-1から1までです。HOEFFDING、KENDALL、SPEARMAN、POLYCHORIC、POLYSERIAL、OUTH=、OUTK=、OUTS=オプションを指定しない場合、CORRプロシジャはデフォルトでPearsonの積率相関を生成します。それ以外の場合、Pearson相関を生成するには、PEARSON、ALPHA、COV、CSSCP、SSCP、OUT=オプションのいずれかを指定する必要があります。散布図または散布図行列を要求する場合にも、Pearson相関が表示されます。

PLOTS <( MAXPOINTS=NONE | n )> = plot-request PLOTS <( MAXPOINTS=NONE | n )> = ( plot-request <…plot-request> )

ODS (Output Delivery System)を介して統計グラフを要求します。

プロットを要求する前に、ODS Graphicsを有効にする必要があります。たとえば、次のように指定します。

ods graphics on;
proc corr data=Fitness plots=matrix(histogram);
run;
ods graphics off;

ODS Graphicsを有効化/無効化する方法については、SAS/STAT 13.2 User's GuideのChapter 21: Statistical Graphics Using ODS内にある“Enabling and Disabling ODS Graphics”のセクションを参照してください。

グローバルなプロットオプションであるMAXPOINTS=は、処理が必要な点がn個を超える要素を含む図を表示しないように指定します。デフォルト値はMAXPOINTS=5000です。この制限を無視するには、MAXPOINTS=NONEを指定します。プロット要求オプションには次のものがあります。

ALL: すべての適切なプロットを生成します。
MATRIX <(matrix-options)>: 変数の散布図を要求します。WITHステートメントが指定されていない場合、VARリストに指定された変数による対称行列プロットが表示されます。それ以外の場合、縦列にWITH変数を表示し横列にVAR変数を表示する矩形行列プロットが表示されます。
NONE: すべてのプロットの表示を抑制します。
SCATTER <(scatter-options)>: 変数ペアの散布図を要求します。WITHステートメントが指定されていない場合、VARリストに指定された利用可能な変数ペアごとの散布図が表示されます。それ以外の場合、1つはWITHリスト内の変数、もう1つはVARリスト内の変数からなる、利用可能な変数ペアごとの散布図が表示されます。

散布図または散布図行列を要求すると、Pearson相関も表示されます。

matrix-optionsには次のオプションを指定できます。

HIST | HISTOGRAM: VARリスト内の変数(VARステートメントで指定したもの)によるヒストグラムを対称行列プロットで表示します。
NVAR=ALL | n: 行列プロットに表示するVARリスト内の変数の最大数を指定します。ここでは、n > 0です。NVAR=ALLオプションは、VARリスト内のすべての変数を使用するよう指定します。デフォルトでは、NVAR=5になります。
NWITH=ALL | n: 行列プロットに表示するWITHリスト内の変数(WITHステートメントで指定するもの)の最大数を指定します。ここでは、n > 0です。NWITH=ALLオプションは、WITHリスト内のすべての変数を使用するよう指定します。デフォルトでは、NWITH=5になります。

作成されたVARリストまたはWITHリスト内の変数の最大数が10より大きい場合、同リスト内の最初の10個の変数のみが散布図行列内に表示されます。

scatter-optionsには次のオプションを指定できます。

ALPHA= $\alpha$: 散布図に表示する信頼楕円または予測楕円の $\alpha$ 値を指定します。ここで、 $0 < \alpha < 1$ です。指定された $\alpha$ 値ごとに、( $1-\alpha$ )の信頼楕円または予測楕円が生成されます。デフォルトでは、 $\alpha =0.05$ です。
ELLIPSE=PREDICTION | CONFIDENCE | NONE: 新しいオブザベーションの予測楕円を要求する(ELLIPSE=PREDICTION)か、平均の信頼楕円を要求する(ELLIPSE=CONFIDENCE)か、または散布図で楕円を作成しない(ELLIPSE=NONE)よう指定します。デフォルト値はELLIPSE=PREDICTIONです。
NOINSET: 散布図で要約情報に関するデフォルトのインセットを表示しません。インセットテーブルには、オブザベーションの数と相関が含まれます。
NVAR=ALL | n: プロットに表示するVARリスト内の変数(VARステートメントで指定したもの)の最大数を指定します。ここでは、n > 0です。NVAR=ALLオプションは、VARリスト内のすべての変数を使用するよう指定します。デフォルトでは、NVAR=5になります。
NWITH=ALL | n: プロットに表示するWITHリスト内の変数(WITHステートメントで指定するもの)の最大数を指定します。ここでは、n > 0です。NWITH=ALLオプションは、WITHリスト内のすべての変数を使用するよう指定します。デフォルトでは、NWITH=5になります。

作成されたVARリストまたはWITHリスト内の変数の最大数が10より大きい場合、同リスト内の最初の10個の変数のみがプロット内に表示されます。

POLYCHORIC <(options)>

ポリコリック相関係数を求めます。(2つの観測2値変数間のポリコリック相関は、テトラコリック相関とも呼ばれます。)ポリコリック相関は、2変量正規分布を使用して、2つの非観測変数間の相関を計算します。非観測変数に関する情報は、非観測変数の値を離散的な順序値の有限集合へと分類することにより導かれる観測順序変数を介して取得します。WEIGHTステートメントを指定する場合は、POLYCHORICオプションは使用できません。

ポリコリック相関を計算する場合、次のoptionsを指定できます。

CONVERGE=p: 収束基準を指定します。値pは0から1までの範囲内でなければなりません。各パラメータ(順序変数のカテゴリを定義する非観測の連続変数の相関およびしきい値)の反復ステップ間のパラメータ推定値の絶対的な変化がp未満である場合、その反復は収束すると見なされます。デフォルト値はCONVERGE=0.0001です。
MAXITER=number: 最大反復回数を指定します。反復回数がnumberを超えた時点で、反復は停止します。デフォルト値はMAXITER=200です。
NGROUPS=ALL | n: 個々の順序変数で許可されるグループの最大数を指定します。ここで、n > 1です。NGROUPS=ALLオプションは、個々の順序変数で無制限の数のグループを許可します。それ以外の場合、グループの数がnに指定された数を超えると、影響を受ける変数ペアに関してはポリコリック相関が計算されなくなります。デフォルト値はNGROUPS=20です。

POLYSERIAL <(options)>

ポリシリアル相関係数を求めます。ポリシリアル相関は、1つの変数が観測され1つの変数が非観測である場合に、2変量正規分布を使用して2つの連続変数の相関を測定します。非観測変数に関する情報は、非観測変数の値を離散的な順序値の有限集合へと分類することにより導かれる観測順序変数を介して取得します。WEIGHTステートメントを指定する場合は、POLYSERIALオプションは使用できません。

ポリシリアル相関を計算する場合、次のoptionsを指定できます。

CONVERGE=p: 収束基準を指定します。値pは0から1までの範囲内でなければなりません。各パラメータ(順序変数のカテゴリを定義する非観測の連続変数の相関およびしきい値)の反復ステップ間のパラメータ推定値の絶対的な変化がp未満である場合、その反復は収束すると見なされます。デフォルト値はCONVERGE=0.0001です。
MAXITER=number: 最大反復回数を指定します。反復回数がnumberを超えた時点で、反復は停止します。デフォルト値はMAXITER=200です。
NGROUPS=ALL | n: 個々の順序変数で許可されるグループの最大数を指定します。ここで、n > 1です。NGROUPS=ALLオプションは、個々の順序変数で無制限の数のグループを許可します。それ以外の場合、グループの数がnに指定された数を超えると、影響を受ける変数ペアに関してはポリシリアル相関が計算されなくなります。デフォルト値はNGROUPS=20です。
ORDINAL=WITH | VAR: 順序変数のリストを指定します。ORDINAL=WITHオプションは、順序変数がWITHステートメントで、連続変数がVARステートメントでそれぞれ提供されることを指定します。ORDINAL=VARオプションは、順序変数がVARステートメントで、連続変数がWITHステートメントでそれぞれ提供されることを指定します。デフォルト値はORDINAL=WITHです。

RANK

各変数間の順序相関係数を表示します。相関係数は、絶対値の大きさで降順に並べられます。HOEFFDINGオプションを指定すると、 $D$ 統計量が降順に表示されます。

SINGULAR=p

PARTIALステートメントを使用する場合に、変数の特異性を判断するための基準を指定します。変数は、対角要素のCholesky分解後の値が、その変数の元の修正済み平方和のp倍よりも小さい値である場合は、特異と見なされます。デフォルト値は、SINGULAR=1E $-$ 8になります。pは0から1までの間の値になります。

SPEARMAN

変数の順位に基づいてSpearmanの相関係数を計算します。相関係数の範囲は-1から1までです。WEIGHTステートメントを指定した場合、SPEARMANオプションは無効となります。

SSCP

修正済み平方和と交差積を表示します。SSCPオプションを指定すると、Pearson相関も表示されます。OUTP=オプションを指定すると、出力データセットには、変数_TYPE_の値がSSCPであるSSCP行列が含まれます。PARTIALステートメントを指定すると、不偏SSCP行列が表示され、出力データセットにはSSCP行列は含められません。

VARDEF=DF | N | WDF | WEIGHT | WGT

分散および共分散の計算に使用する分母を指定します。デフォルト値はVARDEF=DFです。

表2.2に、VARDEF=オプションで使用できる値と関連する分母を示します。ここで、nは欠損値でないオブザベーションの数、kはPARTIALステートメントで指定された変数の数、 $w_ j$ はj番目の欠損値でないオブザベーションに割り当てられている重みです。

表2.2: VARDEF=オプションで使用できる値

値	説明	分母
DF	自由度	n - k - 1
N	オブザベーションの数	N
WDF	重みの合計から1を差し引いた値	$\sum _ j^ n w_ j - k - 1$
WEIGHT \| WGT	重みの合計	$\sum _ j^ n w_ j$