Statistik: Klassierung eines metrischen Merkmals mit vielen verschiedenen Ausprägungen

Metrische Merkmale mit vielen verschiedenen Ausprägungen

Klassierung

Liegen sehr viele verschiedene Beobachtungen eines metrisch skalierten Merkmals vor, ist es wenig sinnvoll, die Ausprägungen zu zählen. Hier müssen die einzelnen Werte für die Häufigkeitstabelle zusammengefasst werden. Das geschieht in sogenannten Klassen.

Beispiel

Es liegen für 32 europäische Länder als Indikator für den Wohlstand die Zahlen der PKWs pro 1000 Einwohner vor:

31 43 65 152 156 247 264 266
280 289 295 332 341 351 357 365
400 421 422 423 438 451 452 456
489 494 514 516 541 557 591 641

Diese Vielzahl unterschiedlicher Werte ist unübersichtlich. Sie werden zu Klassen zusammengefasst, und zwar so,

Klasse 1 über 0 - bis 200 31 43 65 152 156
Klasse 2 über 200 bis 300 247 264 266 280 289 295
Klasse 3 über 300 bis 400 332 341 351 357 365 400
Klasse 4 über 400 bis 500 421 422 423 438 451 452 456 489 494
Klasse 5 über 500 bis 700 514 516 541 557 591 641

so dass wir dann die folgende Häufigkeitstabelle erhalten:

j Zahl der PKW pro 1000 Zahl der Länder
absolute Häufigkeit
nj
relative Häufigkeit
pj
1 über 0 - bis 200 5 5/32 =0,15625
2 über 200 bis 300 6 0,1875
3 über 300 bis 400 6 0,1875
4 über 400 bis 500 9 0,28125
5 über 500 bis 700 6 0,1875
Σ   32 1

Struktur von Klassen

Wir wollen anhand des Beispiels die Struktur von Klassen ansehen:

Es werden benachbarte Merkmalsausprägungen xi zu einer Klasse zusammengefasst. Wir bezeichnen als

  • Zahl der Klassen:   (m=5)
  • Absolute der Beobachtungswerte in der Klasse j (j = 1, ..., m):  
  • Relative Häufigkeit:  
  • Klassenobergrenze:   ; Klassenuntergrenze:  
  • Klassenbreite:  
  • Klassenmitte: : 

Bemerkungen

Die Beobachtungen sollen in einer Klasse möglichst gleichmäßig verteilt sein. Idealerweise haben alle Klassen dieselbe Breite, was aber nur bei gleichmäßiger Verteilung der Beobachtung zu empfehlen ist. Auf jeden Fall sollen keine leeren Klassen in der Mitte auftreten.

Für die empfehlenswerte Zahl von Klassen gilt die Faustregel   . Die Zuordnung der Beobachtung zu einer Klasse muß eindeutig sein, also

nicht 10 - 11 11 - 12 12 - 13 ...
sondern 10 - unter 11 11 - unter 12 12 - unter 13 ...
oder über 10 bis 11 über 11 bis 12 über 12 bis 13 ...


Manchmal treten offene Randklassen auf.

Beispiel:

Größe der landwirtschaftlichen Betriebe in Bayern

Klasse j Größe des Betriebs(in ha) ...
1 höchstens 5 ...
2 über 5 bis 10 ...
3 über 10 bis 50 ...
4 mehr als 50 ...


Behandlung offener Randklassen

Bestimmte Verfahren wie beispielsweise Histogramme etc. verlangen einen Randwert für die oberste und unterste Klasse. Bei offenen Randklassen muß der äußere Randwert „erfunden“ werden.

  1. Falls gleiche Klassenbreiten existieren, werden die Randklassen genauso breit gemacht.
  2. Man verwendet als äußere Klassengrenze einen plausiblen Wert.

Grafiken

Der Klassiker einer Grafik für klassierte Daten ist das Histogramm, eine Entsprechung des Säulendiagramms. Man trägt auf der Abszisse die Klassen ab und errichtet über den Klassen Rechtecke, deren Fläche die absolute oder relative Häufigkeit beträgt.

Wir wollen nun für die PKW-Indikatordaten ein Histogramm konstruieren. Die Intervallbreiten und die Flächen der einzelnen Rechtecke sind bekannt, uns fehlt jedoch die Höhe einer Säule. Wir werden dieses Problem geometrisch angehen:

Es gilt Fläche = Höhe * Breite, bzw.

 ,

also

 .
 
Histogramm der PKWS pro tausend Einwohner in Europäischen Ländern
j Zahl der PKW pro 1000 Zahl der Länder
absolute Häufigkeit
nj
Klassenbreite
dj
Säulenhöhe
hj = nj/dj
1 über 0 - bis 200 5 200 - 0 = 200 0,025
2 über 200 bis 300 6 100 0,06
3 über 300 bis 400 6 100 0,06
4 über 400 bis 500 9 100 0,09
5 über 500 bis 700 6 200 0,03

Üblicherweise wird beim Histogramm die Ordinate (y-Achse) weggelassen, weil sonst die Höhe der Säule als Häufigkeit gedeutet wird. Tatsächlich ist aber die Fläche der Säule die Häufigkeit. Es geht ja in der Grafik darum, einen optischen Eindruck von der Aufteilung der Daten zu bekommen. In unserem Beispiel wurde die Ordinate beibelassen, damit die Konstruktion des Histogramms deutlich wird. Man kann zur Unterstützung der Information noch die Häufigkeiten in die Säulen eintragen.