UNIVARIATEプロシジャ

ロバスト推定量

根拠となる前提からデータが中程度または大きく外れていても影響を受けにくい場合、その統計方法はロバストであると言います。PROC UNIVARIATEでは、いくつかの方法で位置および尺度のロバスト推定を行うことができます。例4.11を参照してください。

ウィンザー化平均

ウィンザー化平均は外れ値の影響を比較的受けにくい、位置のロバスト推定量です。 $\text{[math]}$ -timesのウィンザー化平均は次のように計算されます。

$\text{[math]}$

ここで、 $\text{[math]}$ はオブザベーションの数、 $\text{[math]}$ は、オブザベーションが昇順で並べられている場合の $\text{[math]}$ 番目の順序統計量を表します

$\text{[math]}$

ウィンザー化平均は、 $\text{[math]}$ 個の最小オブザベーションを $\text{[math]}$ 番目に小さいオブザベーションに置き換え、 $\text{[math]}$ 個の最大オブザベーションを $\text{[math]}$ 番目に大きいオブザベーションに置き換えた後、通常の平均と同じように計算されます。

対称分布のデータの場合、ウィンザー化平均はバイアスをかけない母集団平均の推定です。ただし、正規分布の母集団のデータであっても、ウィンザー化平均は正規分布になりません。

ウィンザー化された2乗偏差の合計は次のように定義されます。

$\text{[math]}$

ウィンザー化された $\text{[math]}$ 統計量は次のように計算されます。

$\text{[math]}$

$\text{[math]}$ は帰無仮説のもとでの位置を示し、ウィンザー化平均の標準誤差は次のとおりです。

$\text{[math]}$

データが対称分布に由来する場合、 $\text{[math]}$ の分布は、Studentの $\text{[math]}$ 分布(自由度が $\text{[math]}$ のもの)により近似されます(Tukey and McLaughlin; 1963; Dixon and Tukey; 1968)。

位置パラメータに対するウィンザー化された $\text{[math]}$ 信頼区間の上限および下限は次のとおりです。

$\text{[math]}$

ここで、 $\text{[math]}$ は、 $\text{[math]}$ 番目のパーセント点(Studentの $\text{[math]}$ 分布で自由度が $\text{[math]}$ である分布)になります。

トリム平均

ウィンザー化平均と同様、トリム平均は外れ値の影響を比較的受けにくい、位置のロバスト推定量です。 $\text{[math]}$ -timesのトリム平均は次のように計算されます。

$\text{[math]}$

トリム平均は、 $\text{[math]}$ 個の最小オブザベーションと $\text{[math]}$ 個の最大オブザベーションを標本から削除した後、計算されます。つまり、オブザベーションの両端がトリムされます。

対称分布の場合、対称にトリムされた平均はバイアスをかけない母集団平均の推定です。ただし、正規分布の母集団のデータであっても、トリム平均は正規分布になりません。

トリム平均 $\text{[math]}$ の偏差のロバスト推定は、2乗偏差のウィンザー化された合計 $\text{[math]}$ に基づくことができます。これはウィンザー化平均のセクションで定義されています。Tukey and McLaughlin (1963)を参照してください。これを使用して、次の検定統計量に基づく、トリムされた $\text{[math]}$ 検定を計算できます。

$\text{[math]}$

トリム平均の標準誤差は次のとおりです。

$\text{[math]}$

位置パラメータに対する"トリムされた" $\text{[math]}$ 信頼区間の上限および下限は次のとおりです。

$\text{[math]}$

ここで、 $\text{[math]}$ は、 $\text{[math]}$ 番目のパーセント点(Studentの $\text{[math]}$ 分布で自由度が $\text{[math]}$ である分布)になります。

尺度のロバスト推定

最も一般的に使用されている尺度の推定量である標本標準偏差は、外れ値の影響を受けやすい推定量です。一方、ロバストな尺度推定量では、単一のデータ値が任意の大きいまたは小さい値に置き換えられるときに、有界性が保たれます。UNIVARIATEプロシジャは、四分位範囲、Giniの平均差 $\text{[math]}$ 、中央絶対偏差(MAD)、 $\text{[math]}$ 、 $\text{[math]}$ などの尺度のロバスト指標を計算します。また、これらの各指標から導き出される通常の標準偏差 $\text{[math]}$ も計算します。

四分位範囲(IQR)は、上位および下位の四分位点の間の単純な差です。正規母集団の場合、 $\text{[math]}$ はIQR/1.34898で推定できます。

Giniの平均差は次のように計算されます。

$\text{[math]}$

正規母集団の場合、 $\text{[math]}$ の期待値は $\text{[math]}$ です。つまり、正規標本からのデータの場合、 $\text{[math]}$ が $\text{[math]}$ のロバスト推定量です。正規分布の場合、この推定量は通常の標本標準偏差に比べて効率性が高く、外れ値の存在の影響も受けにくくなります。

中央絶対偏差(MAD) (Hampel; 1974)は特にロバストな尺度推定量で、次のように計算されます。

$\text{[math]}$

内側の中央値 $\text{[math]}$ は、 $\text{[math]}$ 個のオブザベーションの中央値で、外側の( $\text{[math]}$ が付いた)中央値は内側の中央値に関する偏差の $\text{[math]}$ 個の絶対値の中央値です。正規分布の場合、 $\text{[math]}$ は $\text{[math]}$ の推定量です。

MADは正規分布では効率性が低く、対称分布には必ずしも適しているとは限りません。RousseeuwとCroux (1993)は、MADの代替として2つの統計量を提唱しています。1つ目の統計量は次のとおりです。

$\text{[math]}$

( $\text{[math]}$ が付いた)外側の中央値は、 $\text{[math]}$ の $\text{[math]}$ 個の中央値で、 $\text{[math]}$ です。小さい標本によるバイアスを抑制するには、 $\text{[math]}$ を使用して $\text{[math]}$ を推定します。 $\text{[math]}$ は補正因子です。Croux and Rousseeuw (1992)を参照してください。

RousseeuwとCroux (1993)が提唱している2つ目の統計量は次のとおりです。

$\text{[math]}$

説明

$\text{[math]}$

つまり、 $\text{[math]}$ は、データポイント間の $\text{[math]}$ の距離の $\text{[math]}$ 番目の順序統計量の2.2219倍です。バイアス補正した統計量 $\text{[math]}$ は $\text{[math]}$ の推定に使用されます。 $\text{[math]}$ は補正因子です。Croux and Rousseeuw (1992)を参照してください。