UNIVARIATEプロシジャ

パーセント点の計算

UNIVARIATEプロシジャは、各分析変数の最小値および最大値と、1番目、5番目、10番目、25番目、50番目、75番目、90番目、95番目、99番目のパーセント点(分位点)を自動的に計算します。これらのデフォルトパーセント点以外のパーセント点を計算するには、OUTPUTステートメントのPCTLPTS=オプションおよびPCTLPRE=オプションを使用します。

PCTLDEF=オプションで、5つのパーセント点計算定義のうち1つを指定できます。nは変数の値が非欠損値であるオブザベーション数、$x_1, x_2, \ldots , x_ n$は並べ替えられた変数の値を表すとします。また、t番目のパーセント点がyであるとし、$p = \frac{t}{100}$と設定した上で、次の式が成り立つとします。

\[  \begin{array}{rcll} np & =&  j+g &  ~ ~ \mbox{when PCTLDEF=1, 2, 3, or 5} \\ (n + 1) p & =&  j+g &  ~ ~ \mbox{when PCTLDEF=4} \end{array}  \]

ここで、jnpの整数部分、gnpの小数部分です。この場合、PCTLDEF=オプションはt番目のパーセント点yを次の表に記述したように定義します。

PCTLDEF

説明

公式

1

$x_{np}$での重み付き平均

$y = (1-g)x_ j+gx_{j+1}$

   

ここで、$x_{0}$$x_{1}$と解釈されます。

2

npに最も近い番号のオブザベーション

$\begin{array}{ll} y=x_ j &  \mbox{if } g < \frac{1}{2} \\ y=x_ j &  \mbox{if } g=\frac{1}{2} \mbox{ and } \mi{j} \mbox{ is even} \\ y=x_{j+1} &  \mbox{if } g=\frac{1}{2} \mbox{ and } \mi{j} \mbox{ is odd} \\ y=x_{j+1} &  \mbox{if } g > \frac{1}{2} \\ \end{array}$

3

経験分布関数

$\begin{array}{ll} y=x_{j} &  \mbox{if } g=0 \\ y=x_{j+1} &  \mbox{if } g>0 \end{array}$

4

重み付き平均

$y=(1-g)x_ j + gx_{j+1}$

 

($x_{(n + 1) p}$での)

ここで、$x_{n + 1}$$x_ n$と解釈されます。

5

平均化された経験分布関数

$\begin{array}{ll} y=\frac{1}{2}(x_ j + x_{j+1}) &  \mbox{if } g=0 \\ y=x_{j+1} &  \mbox{if } g>0 \end{array} $

重み付きパーセント点

WEIGHTステートメントを使用する場合、パーセント点は異なる方法で計算されます。100p番目の重み付きパーセント点yは、平均化された経験分布関数から計算されます。

\[  y = \left\{  \begin{array}{cl} x_1 &  \mbox{if} \  w_1 > pW \\ \frac{1}{2} ( x_ i + x_{i+1} ) &  \mbox{if} \sum _{j=1}^{i} w_ j = pW \\ x_{i+1} &  \mbox{if} \sum _{j=1}^{i} w_ j < pW < \sum _{j=1}^{i+1} w_ j \end{array} \right.  \]

ここで、$w_ i$$x_ i$に関連付けられた重みであり、$W = \sum _{i=1}^{n} w_ i$は重みの合計です。

PCTLDEF=オプションは、WEIGHTステートメントが使用される場合は適用されません。ただし、この場合、重みがすべて同じであれば、重み付きパーセント点は、WEIGHTステートメントを使用せずにPCTLDEF=5で計算されるパーセント点と同じになります。

パーセント点の信頼限界

CIPCTLNORMALオプションを使用すると、データが正規分布であると仮定して、パーセント点の信頼限界を要求できます。 これらの限界については、Hahn and Meeker (1991)のセクション4.4.1で説明されています。$0 < p < \frac{1}{2}$の場合、$100p$番目のパーセント点の両側の$100(1-\alpha )\% $信頼限界は次のようになります。

\[  \begin{array}{lcl} \mbox{lower limit} &  = &  \bar{X} - g’(\frac{\alpha }{2};1-p,n) s \\ \mbox{upper limit} &  = &  \bar{X} - g’(1 - \frac{\alpha }{2};p,n) s \end{array}  \]

ここで、nは標本サイズです。$\frac{1}{2} \leq p < 1$の場合、$100p$番目のパーセント点の両側の$100(1-\alpha )\% $信頼限界は次のようになります。

\[  \begin{array}{lcl} \mbox{lower limit} &  = &  \bar{X} + g’(\frac{\alpha }{2};1-p,n) s \\ \mbox{upper limit} &  = &  \bar{X} + g’(1 - \frac{\alpha }{2};p,n) s \end{array}  \]

片側の$100(1-\alpha )\% $信頼限界は、適切な前の式の$\frac{\alpha }{2}$$\alpha $に置き換えて計算されます。因子$g’(\gamma ,p,n)$は、非心t分布に関連し、Owen and Hua (1977)およびOdeh and Owen (1980)に説明されています。例4.10を参照してください。

CIPCTLDFオプションを使用すると、パーセント点の分布によらない信頼限界を要求できます。特に、データが正規分布であると仮定する必要がありません。これらの限界については、Hahn and Meeker (1991)のセクション5.2で説明されています。$100p$番目のパーセント点の両側の$100(1-\alpha )\% $信頼限界は次のようになります。

\[  \begin{array}{lcl} \mbox{lower limit} &  = &  X_{(l)} \\ \mbox{upper limit} &  = &  X_{(u)} \end{array}  \]

ここで、$X_{(j)}$は、データ値が昇順で並べ替えられている場合のj番目の順序統計量であり、次の式が成り立ちます。

\[  X_{(1)} \leq X_{(2)} \leq \ldots \leq X_{(n)}  \]

下のランクlと上のランクuは、$\lfloor np \rfloor +1$の前後で対称(またはほぼ対称)な整数です。ここで、$\lfloor np \rfloor $$np$の整数部分であり、 nは標本サイズです。また、luは、次の包含確率要件を満たしながら、$X_{(l)}$および$X_{(u)}$ができるだけ$X_{\lfloor np \rfloor +1}$に近くなるように選択されます。

\[  Q(u-1;n,p) - Q(l-1;n,p) \geq 1 - \alpha  \]

ここで、$Q(k;n,p)$累積二項確率であり、次のように表されます。

\[  Q(k;n,p) = \sum _{i=0}^{k} \left(\begin{array}{c} n \cr i \end{array}\right) p^ i (1-p)^{n-i}  \]

特にnが小さく、pが0または1に近似している場合、包含要件を満たせないことがあります。対称性の要件を緩和するため、CIPCTLDF(TYPE = ASYMMETRIC)を指定することができます。このオプションは、包含要件を満たすことができる場合は対称限界を要求し、それ以外の場合は非対称限界を要求します。

CIPCTLDF(TYPE = LOWER)を指定すると、片側の$100(1-\alpha )\% $下位信頼限界が$X_{(l)}$として計算されます。ここで、lは次の不等式を満たす最も大きい整数です。

\[  1 - Q(l-1;n,p) \geq 1 - \alpha  \]

$0 < l \leq n$も満たします。同様に、CIPCTLDF(TYPE = UPPER)を指定すると、片側の$100(1-\alpha )\% $下位信頼限界が$X_{(u)}$として計算されます。ここで、uは次の不等式を満たす最も大きい整数です。

\[  Q(u-1;n,p) \geq 1 - \alpha \; \; \;  \mbox{ where } 0 < u \leq n  \]

パーセント点の信頼限界は、WEIGHTステートメントが指定されている場合は計算されません。例4.10を参照してください。