UNIVARIATEプロシジャ

核密度推定

KERNELオプションを使用すると、核密度推定をヒストグラムに重ねて表示できます。核密度推定を使用してデータ分布を平滑化すると、ヒストグラムを使用するよりも効率的に、ヒストグラムビンの選択またはサンプリングの変化によって隠される可能性のある特徴を識別できます。また、核密度推定は、プロセス分布が多峰性である場合も、パラメトリックな曲線の当てはめより効率的です。例4.23を参照してください。

核密度推定量の一般形は次のとおりです。

$\hat{f}_{\lambda }(x) = \frac{hv}{n\lambda } \sum ^ n_{i=1}K_{0}\left(\frac{x-x_{i}}{\lambda }\right)$

ここで、

$K_0 (\cdot )$ 核関数
$\lambda$ 区間幅
n 標本サイズ
$x_ i$ i番目のオブザベーション
$v =$ 垂直比率

および

$v = \left\{ \begin{array}{ll} n & \mbox{for VSCALE=COUNT} \\ 100 & \mbox{for VSCALE=PERCENT} \\ 1 & \mbox{for VSCALE=PROPORTION} \end{array} \right.$

KERNELオプションでは、正規、2次および3次の3つの核関数( $K_0$ )を使用できます。関数は、KERNELオプションの後のかっこで囲んだK= kernel-optionで指定できます。K=オプションの値は、NORMAL、QUADRATICおよびTRIANGULAR (それぞれ、別名はN、QおよびT)です。デフォルトでは、正規核関数が使用されます。核関数の計算式は次のとおりです。

$\begin{array}{lll} \mbox{Normal} & K_0(t) = \frac{1}{\sqrt {2\pi }} \exp (-\frac{1}{2}t^{2}) & \mbox{for } -\infty < t < \infty \\ \mbox{Quadratic} & K_0(t) = \frac{3}{4}(1-t^2) & \mbox{for } |t| \leq 1 \\ \mbox{Triangular} & K_0(t) = 1-|t| & \mbox{for } |t| \leq 1 \end{array}$

$\lambda$ の値は区間幅パラメータと呼ばれ、推定される密度関数の平滑度を決定します。 $\lambda$ は、C= kernel-optionで標準化区間幅cを指定することにより、間接的に指定します。Qが四分位範囲で、nが標本サイズの場合、cと $\lambda$ には次の式で表される関係があります。

$\lambda = cQn^{-\frac{1}{5}}$

特定の核関数では、密度推定量 $\hat{f}_{\lambda }(x)$ と真密度 $f(x)$ の間のディスクレパンシは平均積分平方誤差(MISE)によって測定されます。

$\mbox{MISE}(\lambda ) = \int _{x}\{ E(\hat{f}_{\lambda }(x)) - f(x)\} ^{2}dx + \int _{x}var(\hat{f}_{\lambda }(x))dx$

MISEは、2乗バイアスの積分と分散の合計です。漸近的平均積分平方誤差(AMISE)は次のとおりです。

$\mbox{AMISE}(\lambda ) = \frac{1}{4}\lambda ^{4} \left(\int _{t}t^{2}K(t)dt\right)^2 \int _ x\left(f^{\prime \prime }(x)\right)^2dx + \frac{1}{n\lambda }\int _{t}K(t)^2dt$

AMISEが最小になる区間幅は、 $f(x)$ を、標本平均と標準偏差により推定されるパラメータ $\mu$ および $\sigma$ を持つ正規密度として扱うことにより導かれます。区間幅パラメータを指定しなかった場合またはC=MISEを指定した場合は、AMISEが最小になる区間幅が使用されます。AMISEの値を使用して、異なる密度推定を比較することができます。また、C=SJPIを指定すると、SheatherおよびJones (Jones, Marron, and Sheather; 1996)のプラグイン式を使用して、区間幅を選択できます。推定ごとに、区間幅パラメータc、核関数の種類およびAMISEの値が、SASログにレポートされます。

一般的な核密度推定は、推定する密度の定義域が実数直線上ですべての値を取り得ることを前提にしています。しかし、密度の定義域が片側または両側で有界な間隔である場合があります。たとえば、変数Yが正の値のみの測定である場合、核密度曲線は負のY値に対して0になるように有界である必要があります。境界は、LOWER=およびUPPER= kernel-optionsで指定できます。

UNIVARIATEプロシジャは、Silverman (1986, pp. 30-31)の説明にあるように、反射法を使用して有界な核密度曲線を作成します。この方法では、境界の外側にある核密度の反射を、有界な核推定に追加します。有界な核密度推定量の一般形は、元の等式の $K_{0}\left(\frac{x-x_{i}}{\lambda }\right)$ を、次の式に置き換えることによって計算されます。

$\left\{ K_0\left(\frac{x - x_ i}{\lambda }\right) + K_0\left(\frac{(x - x_ l) + (x_ i - x_ l)}{\lambda }\right) + K_0\left(\frac{(x_ u - x) + (x_ u - x_ i)}{\lambda }\right) \right\}$

ここで、 $x_ l$ は下限、 $x_ u$ は上限です。

下限がない場合、 $x_ l = -\infty$ および $K_0\left(\frac{(x-x_ l)+(x_ i-x_ l)}{\lambda }\right) = 0$ です。同様に、上限がない場合、 $x_ u = \infty$ および $K_0\left(\frac{(x_ u-x)+(x_ u-x_ i)}{\lambda }\right) = 0$ です。

有界な核密度でC=MISEが使用されている場合、UNIVARIATEプロシジャは、非有界の核に対するAMISEが最小になる区間幅を使用します。