箱ヒゲ図における分位点の算出手法

[OS] ALL
[リリース] ALL
[キーワード] 箱ヒゲ図、分位点、パーセント点

[質問]

GPLOTプロシジャのSYMBOLステートメントにてI=BOXオプションを使って、箱ヒゲ図を作成しています。このとき、算出されている25%点、中央値、75%等の分位点はどのように算出されていますか。また、その算出を異なる手法に変更できますか。

[回答]

非欠損のオブザベーション数を n とし、p%点を求めるとした場合、n * p / 100 が整数 j であるときは、j番目と j+1番目に大きな値の平均が p%点となります。 n*p / 100 が整数 j と整数 j + 1 の間であるときは、j+1 番目に大きな値となります。

I=BOXオプションでは上記の算出であり、手法を変更できませんが、箱ヒゲ図の作成に対応しているBOXPLOTプロシジャ、SGPLOTプロシジャのVBOXプロシジャでは、手法を変更することができます。

例)
PROC BOXPLOT DATA=test;
  PLOT y*x / PCTLDEF=5;
RUN;

PROC SGPLOT DATA=test;
  VBOX y / CATEGORY=x PERCENTILE=5;
RUN;

それぞれPCTLDEF=オプション、PERCENTILE=オプションで指定しており、1から5の値が指定できます。 I=BOXオプションと同じ手法は 5 であり、両プロシジャにおけるデフォルトの手法となります。 各手法の詳細については、ドキュメントの以下に記載があります。

[Base SAS ] → [Base SAS Procedure Guide] → [Appendixes] → [SAS Elementary Statistics Procedure] → [Quantile and Related Statistics]