群平均法によるクラスター間の距離の値について
[OS]ALL
[リリース] 6.07, 6.08, 6.09, 6.10
[キーワード] stat, cluster, method, average, var, id, outtree, nonorm, tree
[質問]クラスター分析(群平均法)によるクラスター間距離が入力データよりもかなり小さくなるのはなぜでしょうか。 たとえば次の入力データ(飛行距離)の範囲は200から2800なのに、クラスター間距離の範囲は、0.1から1.3になっています。 data city(type=distance); title '米国主要都市間の飛行距離データ'; input (atlanta chicago denver houston losangel maimi) (5.) / (newyork sanfran seattle washdc) (5.) @21 city $15.; cards; 0 atlanta 587 0 chicago 1212 920 0 denver 701 940 879 0 houston 1936 1745 831 1374 0 los angeles 604 1188 1726 968 2339 0 miami 748 713 1631 1420 2451 1092 0 newyork 2139 1858 949 1645 347 2594 2571 0 san fransisco 2182 1737 1021 1891 959 2734 2408 678 0 seattle 543 597 1494 1220 2300 923 205 2442 2329 0 washington dc ; run; proc cluster data=city method=average outtree=tree; var atlanta--washdc; id city; run; proc tree data=tree horizontal; run; 米国主要都市間の飛行距離データ Average Linkage Cluster Analysis Average Distance Between Clusters 1.4 1.2 1 0.8 0.6 0.4 0.2 0 +-------+-------+-------+-------+-------+-------+-------+ N ATLANTA XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX............... a XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX m CHICAGO XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX............... e XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX NEWYORK XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX..... o XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX f WASHINGTO DC XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX..... XXXXXXXXXXXXXXXXXXXXXXXXXXXX O MIAMI XXXXXXXXXXXXXXXXXXXXXXXXXXXX......................... b XXXXXXXXXXXXXXXXXXXXX s DENVER XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX...................... e XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX r HOUSTON XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX...................... v X a LOSANGELES XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX......... t XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX i SANFRANSISCO XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX......... o XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX n SEATTLE XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX.....................
[回答]この場合のクラスター間距離は、平均平方を1に標準化しています。 標準化しない距離を求めるにはNONORMオプションを指定してください。 proc cluster data=city method=avrage outtree=tree nonorm; var atlanta--washdc; id city; run;
|