UNIVARIATEプロシジャ

記述統計量

このセクションでは、PROC UNIVARIATEステートメントで計算される記述統計量の計算の詳細を示します。 これらの統計量は、OUTPUTステートメントで表4.14にあるキーワードを指定することにより、OUT=データセットに保存することもできます。

標準アルゴリズム(Fisher; 1973)は、積率統計量の計算に使用されます。UNIVARIATEプロシジャで使用される計算方法は、他のSASプロシジャで記述統計量の計算に使用される計算方法との間に一貫性があります。

次のセクションでは、UNIVARIATEプロシジャで計算されるいくつかの統計量の詳細を示します。

平均

標本平均は次のように計算されます。

\[  \bar{x}_ w = \frac{\sum ^ n_{i=1} w_ i x_ i}{\sum ^ n_{i=1} w_ i}  \]

ここで、nは変数の値が非欠損値であるオブザベーション数、$x_ i$は変数のi番目の値、$w_ i$は変数のi番目の値に関連付けられた重みです。WEIGHT変数が存在しない場合、この式は次のようになります。

\[  \bar{x} = \frac{1}{n} \sum ^ n_{i=1} x_ i  \]

合計

合計は、$\sum ^ n_{i=1} w_ i x_ i$で計算されます。ここで、nは変数の値が非欠損値であるオブザベーション数、$x_ i$は変数のi番目の値、$w_ i$は変数のi番目の値に関連付けられた重みです。WEIGHT変数が存在しない場合、この式は$\sum ^ n_{i=1} x_ i$になります。

重みの合計

重みの合計は、$~ \sum ^ n_{i=1} w_ i$で計算されます。ここで、nは変数の値が非欠損値であるオブザベーション数、$w_ i$は変数のi番目の値に関連付けられた重みです。WEIGHT変数が存在しない場合、重みの合計はnです。

分散

分散は次のように計算されます。

\[  \frac{1}{d} \sum ^ n_{i=1} w_ i (x_ i-{\bar{x}}_ w)^2  \]

ここで、nは変数の値が非欠損値であるオブザベーション数、$x_ i$は変数のi番目の値、${\bar{x}}_ w$は重み付き平均、$w_ i$は変数のi番目の値に関連付けられた重み、dPROC UNIVARIATE ステートメントのVARDEF=オプションで制御される分母です。

\[  d = \left\{  \begin{array}{cl} n-1 &  \mbox{if VARDEF=DF (default)} \\ n &  \mbox{if VARDEF=N} \\ (\sum _ i w_ i) - 1 &  \mbox{if VARDEF=WDF} \\ \sum _ i w_ i &  \mbox{if VARDEF=WEIGHT | WGT} \end{array} \right.  \]

WEIGHT変数が存在しない場合、この式は次のようになります。

\[  \frac{1}{d} \sum ^ n_{i=1} (x_ i-\bar{x})^2  \]

標準偏差

標準偏差は次のように計算されます。

\[  s_ w = \sqrt { \frac{1}{d} \sum ^ n_{i=1} w_ i (x_ i-\bar{x}_ w)^2 }  \]

ここで、nは変数の値が非欠損値であるオブザベーション数、$x_ i$は変数のi番目の値、${\bar{x}}_ w$は重み付き平均、$w_ i$は変数のi番目の値に関連付けられた重み、dはPROC UNIVARIATEステートメントのVARDEF=オプションで制御される分母です。WEIGHT変数が存在しない場合、この式は次のようになります。

\[  s = \sqrt { \frac{1}{d} \sum ^ n_{i=1} (x_ i-\bar{x})^2 }  \]

歪度

標本歪度は、偏差がある方向で他の方向より大きいという偏差の傾向を測定し、VARDEF=オプションに応じて次のように計算されます。

表4.29: 歪度の計算式

VARDEF

公式

DF(デフォルト)

${\displaystyle \frac{n}{(n-1)(n-2)} \sum _{i=1}^ n w_ i^{3/2} \left( \frac{x_ i-\bar{x}_ w}{s_ w} \right)^3}$

N

${\displaystyle \frac{1}{n} \sum _{i=1}^ n w_ i^{3/2} \left( \frac{x_ i-\bar{x}_ w}{s_ w} \right)^3}$

WDF

なし

WEIGHT | WGT

なし


ここで、nは変数の値が非欠損値であるオブザベーション数、$x_ i$は変数のi番目の値、$\bar{x}_ w$は標本平均、sは標本標準偏差、$w_ i$は変数のi番目の値に割り当てられる重みを表します。VARDEF=DFの場合、nは2より大きくする必要があります。WEIGHT変数が存在しない場合、$i=1,\ldots ,n$のすべてに対する$w_ i = 1$になります。

標本歪度は正または負の値になります。データ分布の非対称性を測定し、理論歪度$\sqrt {\beta _1} = \mu _3 \mu _2^{-\frac{3}{2}}$を推定します。ここで、$\mu _2$および$\mu _3$は、2番目および3番目の中心積率です。オブザベーションが正規分布である場合、歪度は0に近くなります。

尖度

標本尖度は、標本の裾の重さを測定し、VARDEF=オプションに応じて次のように計算されます。

表4.30: 尖度の計算式

VARDEF

公式

DF(デフォルト)

${\displaystyle \frac{n (n+1)}{(n-1)(n-2)(n-3)} \sum _{i=1}^ n w_ i^2 \left( \frac{x_ i-\bar{x}_ w}{s_ w} \right)^4 - \frac{3 (n-1)^2}{(n-2)(n-3)}}$

N

${\displaystyle \frac{1}{n} \sum _{i=1}^ n w_ i^2 \left( \frac{x_ i-\bar{x}_ w}{s_ w} \right)^4 - 3}$

WDF

なし

WEIGHT | WGT

なし


ここで、nは変数の値が非欠損値であるオブザベーション数、$x_ i$は変数のi番目の値、$\bar{x}_ w$は標本平均、$s_ w$は標本標準偏差、$w_ i$は変数のi番目の値に割り当てられる重みを表します。VARDEF=DFの場合、nは3より大きくする必要があります。WEIGHT変数が存在しない場合、$i=1,\ldots ,n$のすべてに対する$w_ i = 1$になります。

標本尖度はデータ分布の裾の重さを測定します。$\beta _2-3$で示される調整された理論尖度を推定します。ここで、$\beta _2 = \frac{\mu _4}{{\mu _2}^2}$であり、$\mu _4$は4番目の中心積率です。オブザベーションが正規分布である場合、尖度は0に近くなります。

変動係数(CV)

変動計数は次のように計算されます。

\[  CV = \frac{100 \times s_ w}{\bar{x}_ w}  \]

幾何平均

幾何平均は次のように計算されます。

\[  \left(\  \prod ^ n_{i=1} w_ i x_ i \right)^{1/\sum ^ n_{i=1} w_ i}  \]

ここで、nは変数の値が非欠損値であるオブザベーション数、$x_ i$は変数のi番目の値、$w_ i$は変数のi番目の値に関連付けられた重みです。

WEIGHT変数が存在しない場合、この式は次のようになります。

\[  \left(\  \prod ^ n_{i=1} x_ i \right)^{1/n}  \]

任意の$x_ i$が負の値である場合、幾何平均には欠損値が設定されます。