UNIVARIATEプロシジャ

ラインプリンタプロットの作成

ODS Graphicsが無効である場合、PROC UNIVARIATEステートメントのPLOTSオプションを指定すると、最大4つのラインプリンタの診断プロットを作成して、データの分布を調べることができます。これらのプロットは、幹葉プロット(横棒チャート)、箱ひげ図、正規確率プロット、横に並べた箱ひげ図です。WEIGHTステートメントを指定すると、UNIVARIATEプロシジャは重み付きヒストグラム、重み付き分位点に基づく重み付き箱ひげ図および重み付き正規確率プロットを作成します。

これらのプロットは、旧バージョンのSASのUNIVARIATEプロシジャの従来的な機能です。高解像度グラフを表示できるCDFPLOT、HISTOGRAM、PPPLOT、PROBPLOT、QQPLOTステートメントが追加される以前からあります。また、PLOTSオプションで要求したラインプリンタプロットは、主にODS LISTINGの出力先で使用されることを想定しています。 例4.5を参照してください。

幹葉プロット

出力の最初のプロットは、幹葉プロット(Tukey; 1977)または横棒チャートのいずれかです。単一の間隔に49個を超えるオブザベーションが含まれる場合は、横棒チャートが表示されます。 それ以外の場合は、幹葉プロットが表示されます。幹葉プロットと横棒チャートは、いずれもデータ分布全体を視覚化する方法を提供する点で似ています。幹葉プロットではプロット内の各ポイントで個別のデータ値が示されるため、より詳細な情報が得られます。

プロットで表示する幹の数を変更するには、PLOTSIZE=を使用して行数を増減します。プロットの下に表示される説明に、変数の値の決定方法が記載されています。説明が表示されない場合、Stem.Leafに1を乗じて変数の値を決定します。たとえば、幹の値が10で葉の値が1の場合、変数値は約10.1です。幹葉プロットでは、変数値は最も近い葉に丸められます。変数値が2つの葉のちょうど真ん中にある場合は、最も近い偶数の整数値の葉に丸められます。たとえば、変数値が3.15の場合、幹の値は3で葉の値は2です。

箱ひげ図

箱ひげ図(別名スキマティックボックスプロット)は、幹葉プロットの隣に表示されます。いずれのプロットも同じ垂直軸を使用します。箱ひげ図では、データの要約を視覚的に表示し、外れ値を特定することができます。箱の上下の辺は、標本の25番目(Q1)のパーセント点と75番目(Q3)のパーセント点に対応します。箱の長さは1つの四分位範囲(Q3 – Q1)です。端点にアスタリスクが付いた中央の水平線は、標本の中央値に対応します。中央のプラス記号(+)は、標本平均に対応します。平均値と中央値が等しい場合、プラス記号は箱の中の線上に示されます。箱から突き出た垂直線(ひげと言います)はデータが広がる範囲まで伸び、四分位範囲の1.5倍の距離が最長です。これより離れた値は潜在的な外れ値です。極値には0またはアスタリスク(*)が表示されます。0が表示される場合は、箱の上辺または下辺からの距離が四分位範囲の1.5から3倍までの値です。アスタリスクが表示される場合は、さらに外れた値です。

:高解像度グラフを使用する箱ひげ図を作成するには、SAS/STATソフトウェアのBOXPLOTプロシジャを使用します。SAS/STAT 13.2 User's GuideChapter 28: The BOXPLOT Procedureを参照してください。

正規確率プロット

正規確率プロットは、経験分位点を標準正規分布の分位点に対してプロットします。アスタリスク(*)はデータ値を示します。プラス記号(+)は、標本平均および標準偏差を使用して描画される直線の参照線です。正規分布のデータの場合、アスタリスクは参照線に沿ってプロットされやすくなります。垂直座標はデータ値で、水平座標は$\Phi ^{-1}(v_ i)$です。ここで、次の式が成り立ちます。

\[  \begin{array}{lcl} v_ i &  = &  \frac{r_ i -\frac{3}{8}}{n+\frac{1}{4}} \\ \Phi ^{-1}(\cdot ) &  = &  \mbox{inverse of the standard normal distribution function} \\ r_ i &  = &  \mbox{rank of the }i\mbox{th data value when ordered from smallest to largest} \\ n &  = &  \mbox{number of nonmissing observations} \\ \end{array}  \]

重み付き正規確率プロットの場合、i番目の並べ替えられたオブザベーションは、$\Phi ^{-1}(v_ i)$に対してプロットされます。ここで、次の式が成り立ちます。

\[  \begin{array}{lcl} v_ i &  = &  \frac{(1-\frac{3}{8i})\sum _{j=1}^{i}w_{(j)}}{(1+\frac{1}{4n})\sum _{i=1}^{n}w_ i} \\ w_{(j)} &  = &  \mbox{weight associated with the }j\mbox{th ordered observation} \\ \end{array}  \]

各オブザベーションの重みが同じ場合、$w_ j=w$となり、$v_ i$の計算式は、次のような重み付けのない正規確率プロットの$v_ i$の式に短縮されます。

\[  v_ i = \frac{i-\frac{3}{8}}{n+\frac{1}{4}}  \]

各オブザベーションの重みが同じで、VARDEF=の値がWDFかWEIGHTである場合、切片が$\hat{\mu }$で傾きが$\hat{\sigma }$の参照線がプロットに追加されます。VARDEF=の値がDFまたはNである場合、傾きは$\frac{\hat{sigma}}{\sqrt {\bar{w}}}$になります。ここで、$\bar{w} = \frac{\sum _{i=1}^{n}w_ i}{n}$は平均の重みです。

各オブザベーションの重みが同じで、VARDEF=の値がDF、NまたはWEIGHTである場合、参照線は重み付けのない正規確率プロットの通常の参照線(切片が$\hat{mu}$で傾きが$\hat{\sigma }$の参照線)になります。

平均が$\mu $で標準偏差が$\sigma $である正規分布のデータで、各オブザベーションの重みが同じwである場合、プロット上のポイントはほぼ直線状に並びます。この線の切片は$\mu $です。VARDEF=がWDFまたはWEIGHTの場合の傾きは$\sigma $であり、VARDEF=がDFまたはNの場合の傾きは$\frac{\sigma }{\sqrt {w}}$です。

: 高解像度の確率プロットを作成するには、UNIVARIATEプロシジャのPROBPLOTステートメントを使用します。PROBPLOTステートメントのセクションを参照してください。

横に並べた箱ひげ図

BYステートメントでPLOTSオプションを使用すると、UNIVARIATEプロシジャは横に並べた箱ひげ図をBYグループごとに1つずつ作成します。 箱ひげ図(またはスキマティックプロット)は共通の尺度を使用します。このため、複数のBYグループにわたってデータ分布を比較できます。このプロットは、すべてのBYグループの単変量分析後に表示されます。このプロットを抑制するには、NOBYPLOTオプションを使用します。

:高解像度の横に並べた箱ひげ図を作成するには、SAS/STATソフトウェアのBOXPLOTプロシジャを使用します。SAS/STAT 13.2 User's GuideChapter 28: The BOXPLOT Procedureを参照してください。