Statistik: Klassierung eines metrischen Merkmals mit vielen verschiedenen Ausprägungen
Metrische Merkmale mit vielen verschiedenen Ausprägungen
Klassierung
Liegen sehr viele verschiedene Beobachtungen eines metrisch skalierten Merkmals vor, ist es wenig sinnvoll, die Ausprägungen zu zählen. Hier müssen die einzelnen Werte für die Häufigkeitstabelle zusammengefasst werden. Das geschieht in sogenannten Klassen.
Beispiel
Es liegen für 32 europäische Länder als Indikator für den Wohlstand die Zahlen der PKWs pro 1000 Einwohner vor:
31 | 43 | 65 | 152 | 156 | 247 | 264 | 266 |
280 | 289 | 295 | 332 | 341 | 351 | 357 | 365 |
400 | 421 | 422 | 423 | 438 | 451 | 452 | 456 |
489 | 494 | 514 | 516 | 541 | 557 | 591 | 641 |
Diese Vielzahl unterschiedlicher Werte ist unübersichtlich. Sie werden zu Klassen zusammengefasst, und zwar so,
Klasse 1 | über 0 - bis 200 | 31 43 65 152 156 |
Klasse 2 | über 200 bis 300 | 247 264 266 280 289 295 |
Klasse 3 | über 300 bis 400 | 332 341 351 357 365 400 |
Klasse 4 | über 400 bis 500 | 421 422 423 438 451 452 456 489 494 |
Klasse 5 | über 500 bis 700 | 514 516 541 557 591 641 |
so dass wir dann die folgende Häufigkeitstabelle erhalten:
j | Zahl der PKW pro 1000 | Zahl der Länder absolute Häufigkeit nj |
relative Häufigkeit pj |
---|---|---|---|
1 | über 0 - bis 200 | 5 | 5/32 =0,15625 |
2 | über 200 bis 300 | 6 | 0,1875 |
3 | über 300 bis 400 | 6 | 0,1875 |
4 | über 400 bis 500 | 9 | 0,28125 |
5 | über 500 bis 700 | 6 | 0,1875 |
Σ | 32 | 1 |
Struktur von Klassen
Wir wollen anhand des Beispiels die Struktur von Klassen ansehen:
Es werden benachbarte Merkmalsausprägungen xi zu einer Klasse zusammengefasst. Wir bezeichnen als
- Zahl der Klassen: (m=5)
- Absolute der Beobachtungswerte in der Klasse j (j = 1, ..., m):
- Relative Häufigkeit:
- Klassenobergrenze: ; Klassenuntergrenze:
- Klassenbreite:
- Klassenmitte: :
Bemerkungen
Die Beobachtungen sollen in einer Klasse möglichst gleichmäßig verteilt sein. Idealerweise haben alle Klassen dieselbe Breite, was aber nur bei gleichmäßiger Verteilung der Beobachtung zu empfehlen ist. Auf jeden Fall sollen keine leeren Klassen in der Mitte auftreten.
Für die empfehlenswerte Zahl von Klassen gilt die Faustregel . Die Zuordnung der Beobachtung zu einer Klasse muß eindeutig sein, also
nicht | 10 - 11 | 11 - 12 | 12 - 13 | ... |
sondern | 10 - unter 11 | 11 - unter 12 | 12 - unter 13 | ... |
oder | über 10 bis 11 | über 11 bis 12 | über 12 bis 13 | ... |
Manchmal treten offene Randklassen auf.
Beispiel:
Größe der landwirtschaftlichen Betriebe in Bayern
Klasse j | Größe des Betriebs(in ha) | ... |
---|---|---|
1 | höchstens 5 | ... |
2 | über 5 bis 10 | ... |
3 | über 10 bis 50 | ... |
4 | mehr als 50 | ... |
Behandlung offener Randklassen
Bestimmte Verfahren wie beispielsweise Histogramme etc. verlangen einen Randwert für die oberste und unterste Klasse. Bei offenen Randklassen muß der äußere Randwert „erfunden“ werden.
- Falls gleiche Klassenbreiten existieren, werden die Randklassen genauso breit gemacht.
- Man verwendet als äußere Klassengrenze einen plausiblen Wert.
Grafiken
Der Klassiker einer Grafik für klassierte Daten ist das Histogramm, eine Entsprechung des Säulendiagramms. Man trägt auf der Abszisse die Klassen ab und errichtet über den Klassen Rechtecke, deren Fläche die absolute oder relative Häufigkeit beträgt.
Wir wollen nun für die PKW-Indikatordaten ein Histogramm konstruieren. Die Intervallbreiten und die Flächen der einzelnen Rechtecke sind bekannt, uns fehlt jedoch die Höhe einer Säule. Wir werden dieses Problem geometrisch angehen:
Es gilt Fläche = Höhe * Breite, bzw.
- ,
also
- .
j | Zahl der PKW pro 1000 | Zahl der Länder absolute Häufigkeit nj |
Klassenbreite dj |
Säulenhöhe hj = nj/dj |
---|---|---|---|---|
1 | über 0 - bis 200 | 5 | 200 - 0 = 200 | 0,025 |
2 | über 200 bis 300 | 6 | 100 | 0,06 |
3 | über 300 bis 400 | 6 | 100 | 0,06 |
4 | über 400 bis 500 | 9 | 100 | 0,09 |
5 | über 500 bis 700 | 6 | 200 | 0,03 |
Üblicherweise wird beim Histogramm die Ordinate (y-Achse) weggelassen, weil sonst die Höhe der Säule als Häufigkeit gedeutet wird. Tatsächlich ist aber die Fläche der Säule die Häufigkeit. Es geht ja in der Grafik darum, einen optischen Eindruck von der Aufteilung der Daten zu bekommen. In unserem Beispiel wurde die Ordinate beibelassen, damit die Konstruktion des Histogramms deutlich wird. Man kann zur Unterstützung der Information noch die Häufigkeiten in die Säulen eintragen.