Expertentipp:

Wussten Sie schon, wie Sie mit der Prozedur FREQ die (relativen) Häufigkeiten in einer zweidimensionalen Kreuztabelle visualisieren können?

Und so geht’s:
Die Prozedur FREQ dient der Analyse einfacher und gemeinsamer Häufigkeitsverteilungen kategorialer Variablen. Neben absoluten und relativen Häufigkeiten, Assoziationstests und Zusammenhangsmaßen lassen sich im Rahmen einer explorativen Untersuchung aber z.B. auch die Zellhäufigkeiten einer zweidimensionalen Kreuztabelle grafisch darstellen.

Zu diesem Zweck stehen mit der PLOTS=-Option in der TABLES-Anweisung entsprechende Alternativen zur Verfügung. Mit dem nachstehenden Aufruf der Prozedur FREQ wird für zwei kategoriale Variablen mit je 3 Ausprägungen zunächst die zugehörige Kreuztabelle generiert:


proc freq data=sashelp.heart order=freq;
  tables bp_status*weight_status / norow;
run;

Eine erste Möglichkeit, die Zellhäufigkeiten zu visualisieren, bietet der Häufigkeitsplot:


proc freq data=sashelp.heart order=freq;
  tables bp_status*weight_status / plots=freq(scale=percent
                                              twoway=cluster);
run;

 

Für das gewählte Beispiel wird die gemeinsame Verteilung der beiden kategorialen Variablen als Balkendiagramm gruppiert nach den Ausprägungen der Spaltenvariablen (WEIGHT_STATUS) dargestellt. So entsprechen die Balkenhöhen im ersten (linken) Block den gemeinsamen relativen Häufigkeiten der Kombinationen „Overweight + High“ (35.34%), „Overweight + Normal“ (25.75%) sowie „Overweight + Optimal“ (7.13%).

Seit der Version SAS/STAT 12.1 steht in der Prozedur FREQ darüber hinaus der Mosaikplot zur Verfügung:


proc freq data=sashelp.heart order=freq;
  tables bp_status*weight_status / plots=mosaic;
run;

 

Der Mosaikplot zeigt die marginale Verteilung der Spaltenvariablen (WEIGHT_STATUS) an der x-Achse des Plots. Die Breiten der Kacheln sind proportional zu den prozentualen Häufigkeiten des Auftretens der Kategorien „Overweight“ (68.23%), „Normal“ (28.29%) und „Underweight“ (3.48%).

An der y-Achse des Mosaikplots wird die bedingte Verteilung der Zeilenvariablen (BP_STATUS) innerhalb jeder Ausprägung der Spaltenvariablen (WEIGHT_STATUS) dargestellt. So entsprechen die Kachelhöhen im ersten (linken) Block den prozentualen Häufigkeiten des Auftretens der Kategorien „Optimal“ (10.45%), „Normal“ (37.75%) und „High“ (51.80%), gegeben WEIGHT_STATUS=„Overweight“.

Weitere Tipps zum Thema erhalten Sie im Kurs Statistik 1: Varianzanalyse, Regression und logistische Regression oder dem Kurs Vorhersagemodellierung mit der logistischen Regression.