Statistik: Zentrale Begriffe in der deskriptiven Statistik

Wir wollen ein paar Begriffsdefinitionen der deskriptiven Statistik kennenlernen. Schauen wir uns ein Beispiel an.

Beispiel:

Es wurden n = 7 Hunde befragt, wie gut ihnen das neue Fröhlix-Trockenfutter schmecke. Die Eingabe der Fragebögen in eine Datei ergab die unten folgende Liste. Anhand dieser Liste sollen Begriffe der deskriptiven Statistik erklärt werden.

Die Eigenschaften, die erhoben werden, sind die Merkmale (statistische Variablen) x, y, .... Das Objekt, dessen Eigenschaften erhoben (erfragt, gemessen) werden, ist die Untersuchungseinheit (Merkmalsträger). Die Menge aller statistischen Einheiten ist die Grundgesamtheit (statistische Masse). Die möglichen Werte, die eine Variable annehmen kann, sind die Ausprägungen (Realisationen). Die konkrete Merkmalsausprägung von x, die eine Untersuchungseinheit Nummer i aufweist, ist der Merkmalswert (Beobachtungswert, Beobachtung) xi (i=1,2, ..., n).

Name

Geschlecht
Merkmal
1=w, 2=m
u

Rasse
x

Alter
Merkmal
y

Note für Futter
1, ..., 5
Ausprägungen
z

Rex
Merkmalsträger

2

Schäferhund

3

1

Rexona

1

Mischling

5

4
Merkmalswert

Lassie

1

Collie

1

2

Hasso

2

Neufundländer

2

1

Strolchi
Merkmalsträger

2

Schnauzer

7

2

Susi

1

Spaniel

2

3

Waldi

2

Dackel

1
Merkmalswert

5

Es sind die Ausprägungen des Merkmals

Note: 1, 2, 3, 4, 5

und die Ausprägungen des Merkmals

Geschlecht: 1, 2.

Skalierung des Merkmals

Beispiel

Grundlage des Beispiels ist die Hundetabelle von oben. Der Student Paul leistet beim Hersteller von Fröhlix ein Praktikum ab. Er soll die Ergebnisse der Befragung präsentieren. Er fasst die Hundetabelle von oben zusammen und erhält u.a.

Durchschnittliches Alter eines Hundes:

 

Ein befragter Hund war also im Durchschnitt 3 Jahre alt.

Durchschnittliches Geschlecht eines Hundes:

 

Ein Hund hatte also im Durchschnitt 1,57 Geschlecht. ????? Würden Sie den Studenten Paul später in dieser Firma einstellen?

Es ist natürlich höherer Schwachsinn, vom Merkmal Geschlecht den Durchschnitt zu bilden. Man kann damit keinen Durchschnitt bilden, denn seine Ausprägungen sind keine Zahlen. Geschlecht ist ein qualitatives Merkmal. Es ist anders skaliert als Alter.

Es gibt also Merkmale mit unterschiedlichen Messbarkeitsarten. Die Vorschrift für die Messbarkeit ist in einer Skala festgehalten.


Nominalskala

Merkmale wie

  • Haarfarbe: braun, blond, ...;
  • berufstätig ja/nein;
  • Margarinemarke: Panorama, Botterama, ...

sind nominalsskaliert. Die Ausprägungen des nominalskalierten Merkmals können nicht geordnet werden, man kann sie nur vergleichen und abzählen. Es handelt sich um qualitative Merkmale. Erhalten die Ausprägungen Ziffern zugeordnet, handelt es sich nur um eine Verschlüsselung (Codierung): 1 = männlich, 2 = weiblich.


Ordinalskala

Zwischen den Ausprägungen des ordinalskalierten (rangskalierten) Merkmals existiert eine Beziehung der Form mehr oder weniger, < oder >, besser oder schlechter o.ä., also eine Art natürlicher Reihenfolge.

Beispiele

  • Sterne eines Hotels: *; **; ***; ...
  • Beurteilung eines Produktes durch einen Konsumenten: Sehr gut, eher gut, eher schlecht, ganz schlecht
  • Noten: 1, 2, 3, 4, 5

Für die Ausprägungen läßt sich also eine Rangordnung feststellen, aber die Abstände zwischen den Rängen sind nicht festgelegt. So ist beispielsweise die Note Vier nicht doppelt so schlecht wie Zwei.

Metrische Skala

Die Abstände zwischen den Ausprägungen des metrisch skalierten (quantitativen) Merkmals können gemessen werden. Es handelt sich bei den Ausprägungen um (reelle) Zahlen.

Beispiele: Kinderzahl, Einkommen, Temperatur, ...

Die metrischen Variablen werden noch in diskret und stetig unterschieden:

Ein Merkmal ist diskret (=unterschieden), wenn man die Ausprägungen abzählen kann.

Beispiel
  • Kinderzahl: 0, 1, 2, ... , 20.
  • Mein „Einkommen“, wenn ich falsch parke: 3 Euro (gesparte Parkgebühr) oder -10 Euro (Strafzettel).

Es gibt auch abzählbar unendlich viele Ausprägungen:

  • Zahl der Ausfälle einer Maschine in einem Jahr: 0, 1, 2, ...


Ein Merkmal ist stetig (kontinuierlich), wenn sich in einem beschränkten Intervall der reellen Zahlen unendlich viele Ausprägungen (überabzählbar viele) befinden.

Beispiele: Wasserstand in einem Stausee; Gewicht eines Goldstücks; Temperatur; Körpergröße.

Bemerkung: Oft sind Merkmale eigentlich diskret, aber mit sehr vielen, nah beieinanderliegenden Ausprägungen, z.B. Einwohnerzahl, Preise (in Cents), usw. Hier definiert man das Merkmal zweckmäßigerweise als stetig, da es sich so besser analysieren läßt (quasistetig).

Übung

Wie sind die folgenden Merkmale skaliert?

  • Täglicher Bierkonsum der Studentin Paula
    • - in Flaschen
    • - in Litern
  • Bekenntnis: 1= röm.-kath., 2 = evang., 3 = sonst
  • Gewicht von Bernhardinern
  • Aufgabe: schwer - leicht
  • Zahl der zustehenden Urlaubstage
  • Jeansmarke