UNIVARIATEプロシジャ

 
データ分布の活用

図4.2はLTV比率のヒストグラムを示します。ヒストグラムは、前の例のテーブルでははっきりしない、歪度や最大値が0.175であることなど、比率分布の特徴を明らかにします。次のステートメントはヒストグラムを作成します。

ods graphics off;
title 'Home Loan Analysis';
proc univariate data=HomeLoans noprint;
   histogram LoanToValueRatio;
   inset n = 'Number of Homes' / position=ne;
run;

デフォルトでは、PROC UNIVARIATEは従来的なグラフ出力を作成し、ヒストグラムの基本的な外観は、制御するODSスタイルによって決まります。要約統計量の表示を抑制するには、NOPRINTオプションを指定します。INSETステートメントは、プロットの上辺右端(北東)に分析対象の住宅ローンの合計数を挿入します。

図4.2 LTV比率のヒストグラム
LTV比率のヒストグラム

データセットHomeLoansは、ローンを2種類(GoldおよびPlatinum)に分類するLoanTypeという名前の変数を含んでいます。2種類のLoanToValueRatioの分布を比較すると便利です。次のステートメントは、図4.3および図4.4に示す、各分布の分位点と比較ヒストグラムを要求します。

title 'Comparison of Loan Types';
options nogstyle;
ods select Quantiles MyHist;
proc univariate data=HomeLoans;
   var LoanToValueRatio;
   class LoanType;
   histogram LoanToValueRatio / kernel(color=red)
                                cfill=ltgray
                                name='MyHist';
   inset n='Number of Homes' median='Median Ratio' (5.3) / position=ne;
   label LoanType = 'Type of Loan';
run;
options gstyle;

ODS SELECTステートメントは、分位点のテーブルとHISTOGRAMステートメントで作成されるグラフに、デフォルトの出力を制限します。このグラフは、NAME=オプションで指定された値で識別されます。CLASSステートメントは、分位点の計算と比較ヒストグラムで使用する分類変数として、LoanTypeを指定します。KERNELオプションは、比率密度の平滑でノンパラメトリックな推定を各ヒストグラムに追加します。INSETステートメントは、要約統計量をグラフに直接表示するときに指定します。

NOGSTYLEシステムオプションを指定すると、ODSスタイルはヒストグラムの外観に影響しません。その代わりに、CFILL=オプションがヒストグラムの棒の色を決定し、COLOR=オプションが核密度曲線の色を指定します。

図4.3 LTV比率の分位点
Comparison of Loan Types

The UNIVARIATE Procedure
Variable: LoanToValueRatio (Loan to Value Ratio)
LoanType = Gold

Quantiles (Definition 5)
Quantile Estimate
100% Max 1.0617647
99% 0.8974576
95% 0.6385908
90% 0.4471369
75% Q3 0.2985099
50% Median 0.2217033
25% Q1 0.1734568
10% 0.1411130
5% 0.1213079
1% 0.0942167
0% Min 0.0651786

Comparison of Loan Types

The UNIVARIATE Procedure
Variable: LoanToValueRatio (Loan to Value Ratio)
LoanType = Platinum

Quantiles (Definition 5)
Quantile Estimate
100% Max 1.312981
99% 1.050000
95% 0.691803
90% 0.549273
75% Q3 0.430160
50% Median 0.366168
25% Q1 0.314452
10% 0.273670
5% 0.253124
1% 0.231114
0% Min 0.215504

図4.3の出力は、Platinumローンの中央比率(0.366)がGoldローンの中央比率(0.222)よりも大きいことを示しています。図4.4の比較ヒストグラムでは、より簡単に2つの分布を比較できます。このヒストグラムは、比率分布が約0.14シフトしていることを除いて似ていることを示しています。

図4.4 LTV比率の比較ヒストグラム
LTV比率の比較ヒストグラム

この例のサンプルプログラムunivar1.sasは、Base SASソフトウェアのSASサンプルライブラリに含まれています。