Benutzerin:Gabriele Hornsteiner/Baustelle

Verteilung des Merkmals

Grafiken zur Darstellung der Verteilung

Welche Informationen wollen wir aus der Verteilungsanalyse gewinnen?

Zunächst einmal - banal gesagt - die Verteilung der beobachteten Werte.

Wie verteilen sich beispielsweise die Antworten auf das Statement: "Der vermittelte Vorlesungsstoff ist gut verständlich" der Evaluationsdaten? SPSS gibt uns für die Evaluationsdaten die Tabelle aus:

Wir können der Tabelle sofort entnehmen, dass knapp die Hälfte der Befragten eher nein geantwortet hat und ein knappes Drittel eher ja. Und wir können zur Unterstützung der Tabelle eine Grafik angeben:

Säulendiagramm

Kreisdiagramm

Ein Grafik kann im allgemeinen keine genauen Tabellenangaben ersetzen. Das ist auch nicht die Aufgabe einer Grafik, sondern sie soll die Tabelle optisch unterstützen.

Anforderungen an eine Grafik:

Die Botschaft soll möglichst schnell und einfach zu erfassen sein. Unser Problem heutzutage ist die Informationsüberflutung. Eine Information, die nicht sofort erfasst werden kann, wird überlesen. Überlegen Sie: Sie haben sicher schon einmal in einer Zeitung/Zeitschrift eine Grafik gesehen, deren Gehalt sich nicht sofort erschlossen hat. Haben Sie sich mit dem verbundenen Zeitaufwand bemüht, die Botschaft rauszukriegen?
Die Art der Darstellung soll korrekt und nicht irreführend sein.
- Achten Sie auf eine vollständige Überschrift und Legende. Der Benutzer reagiert verärgert, wenn er sich den Inhalt der Grafik zusammenreimen muss.
- Vermeiden Sie unseriöse Darstellungen. Man kann schon mit der Achsenskalierung den Betrachter manipulieren. Häufig wird auch nicht angegeben, auf welche Zeiteinheit sich die Daten beziehen. Geben Sie, wenn Sie nur wenige Beobachtungen haben, statt der prozentualen Häufigkeiten die absoluten an - es wirkt peinlich, wenn Sie bei zwei Ja- und einer Neinstimme sagen, dass 33% mit nein stimmten.
Die Grafik soll auf die Zielgruppe abgestimmt sein. Überschätzen Sie nicht die Auffassungsgabe von "Normalsterblichen". Halten Sie hier die Grafik einfach, aber vollständig. Fachleute mit analytischem Background kommen auch mit komplexeren Grafiken klar.

Ein kritischer Blick auf die Grafiken macht uns klar, dass man mit den Säulen die Häufigkeiten der Antworten gut vergleichen kann. Das Kreisdiagramm zeigt vor allem die Anteile der Antworten an der gesamten Stichprobe auf. Eine Verbesserung des Kreisdiagramm wäre eventuell noch, die Legende der Antworten direkt an die Segmente zu schreiben, weil das Zuordnen der Farben zu den Antworten einen weiteren Analyseschritt erfordert.

Bei der Einführung hatten wir gesehen, dass die grafische Darstellung eines metrisch skalierten, stetigen Merkmals nicht so schöne und einfache Diagramme ermöglicht wie das diskrete Merkmal. Wir hatten das Histogramm kennengelernt und gesehen, dass vermutlich hier meistens eine Intervallbildung der Daten vorzunehmen ist, um etwas Ordnung in die Vielzahl der verschiedenen Beobachtung zu bringen.

Ein Merkmal, dessen Beobachtungswerte in Intervallen zusammengefasst sind, nennen wir klassiert. Nehmen wir uns wieder das Merkmal lang - Länge eines Kriegsschiffes - vor. Wir wollen für dieses Merkmal eine klassierte Häufigkeitstabelle erstellen.

Wir haben hier m viele Klassen j (j = 1,2, ... m). In jeder Klasse j sind nj viele Beobachtungen enthalten. Die Zuordnung einer Beobachtung zu einer Klasse muss eindeutig sein. Der Statistiker freut sich, wenn alle Klassen gleich breit sind, aber sind die Daten nicht gleichmäßig verteilt, wird man unterschiedliche Klassenbreiten wählen.

Gibt es einen Maximalwert (Modus) der Häufigkeit (unimodal) oder mehrere (multimodal)? Multimodale Verteilungen deuten häufig auf stark heterogene Teilgesamtheiten hin, wie oben schon beschrieben.

Ist die Verteilung symmetrisch oder schief?

Bei einer annähernd symmetrischen Verteilung eines metrischen Merkmals könnte eine Normalverteilung zu Grunde liegen. Eine normalverteilte Grundgesamtheit freut den Statistiker, denn die Normalverteilung ist hinreichend erforscht und sie hat viele wahrscheinlichkeitstheoretische Vorzüge. Auch bringt sie keine Ausreißer in den Daten hervor. Benötigt man für bestimmte statistische Verfahren die Normalverteilung der Daten, kann man sie auf Normalverteilung testen.

Eine deutlich schiefe Verteilung hat in aller Regel keine Normalverteilung in der Grundgesamtheit. Die Wahrscheinlichkeit von Ausreißern in den Daten ist bei schiefen Verteilungen hoch.

Oben hatten wir und schon mit Histogramm und Säulendiagramm die Häufigkeiten von Merkmalen anzeigen lassen. Wir hatten gesehen, dass das Histogramm vor allem für metrisch skalierte Daten geeignet ist, wogegen Säulen- und Kreisdiagram auf rangskalierte Daten anzuwenden sind.

Die Form der deskriptiven Verteilung lässt Rückschlüsse auf den Verteilungstyp des Merkmals in der Grundgesamtheit zu.

Ausreißer

Was ist ein Ausreißer?

Es gibt eine einfache Definition, die sehr unscharf ist, aber intuitiv genau das ausdrückt, was man erwartet:

Ein Ausreißer ist ein Datenwert, der auffällig weit von der Masse der Daten entfernt ist.

Wie kommt ein Ausreißer zustande?

Das Merkmal entstammt einer Verteilung mit sehr großer Varianz Beispiel: Normalverteilung – Cauchyverteilung Das Merkmal entstammt verschiedenen Grundgesamtheiten.

Beispiel: Die Größe männlicher und weiblicher Dobermänner könnte eine zweigipflige Verteilung ergeben.

Ein Eingabefehler liegt vor.

Beispiel: Capitaldaten, ein Komma wurde vergessen.

Was bewirken Ausreißer? Numerische Probleme. Die Analyseergebnisse könnenwertlos werden. Beispiel: Regression mit Ausreißer.

Diagnose von Ausreißern:

Eine einfache Methode ist der Vergleich von Mittelwert und Median eines Merkmals. Weichen diese stark voneinander ab, deutet das auf Ausreißer in den Daten hin.

Ansonsten kann man Ausreißer relativ schnell und zuverlässig mit Hilfe von Verfahren aus der Explorativen Datenanalyse ermitteln.

Die EDA besteht aus einfachen Analyseverfahren, die von der Verteilung des Merkmals nicht beeinflusst werden (robust) und resistent gegenüber Ausreißern sind. Zudem können die Verfahren meistens schnell und von Hand durchgeführt werden.

Behandlung von Ausreißern:

Überprüfung auf Eingabefehler und Korrektur Sind nur wenige Ausreißer vorhanden, kann man die Werte aus den Daten entfernen. Entstammen die Ausreißer einer schiefen Verteilung, könnte man versuchen, die Daten mit einer sogenannten Powertransformation in eine annähernd symmetrische Verteilung zu überführen. Symmetrische Verteilungen sind deshalb erwünscht, weil Eigenschaften der Normalverteilung auf sie zutreffen.

Beziehung Grundgesamtheit - Stichprobe

Wenn man Daten untersucht, will man häufig einen Rückschluss auf eine größere zu Grunde liegende Gesamtheit ziehen.

Beispiel:

Ein großes Versandhaus hätte gern Informationen über die Zufriedenheit seiner Kunden mit dem Service. Da eine Vollerhebung der gesamten Kundschaft als Grundgesamtheit zu aufwendig ist, wird eine Stichprobe gemacht: Es werden beispielsweise 1000 zufällig ausgewählte Kunden angeschrieben und es stellt sich heraus, dass von diesen Kunden 600 zufrieden waren, also p=60%. Man kann nun vermuten, dass dann auch der Anteil Θ der zufriedenen Kunden in der Grundgesamtheit in der Nähe von 60% liegt. Wir haben hier den unbekannten Parameter Θ mit dem Stichprobenwert p geschätzt. Der wahre Wert Θ wird nur in Ausnahmefällen genau 60% sein. Man kann sich überlegen, dass p umso näher an Θ liegt, je mehr Kunden befragt werden. Die Schätzung wird also mit wachsendem Stichprobenumfang n besser. Man kann sich dann ein Intervall vorgeben, in dem der wahre Parameter mit einer Wahrscheinlichkeit von z.B. 95 liegt: Das Konfidenzintervall. So könnte sich etwa ein Konfidenzintervall vin [0,55; 0,65] ergeben, was bedeutet, dass der wahre Parameter mit einer Wahrscheinlichkeit von 95% in diesem Intervall befindet. Hier hätte man schon eine recht brauchbare Schätzung. Ist die Stichprobe sehr klein, könnte sich auch etwa [0,1; 1,1] ergeben. Hier ist die Schätzung wertlos, denn mit so einem breiten Intervall kann man nichts Vernünftiges anfangen. Die Breite des Konfidenzintervalls hängt also vom Stichprobenumfang n ab. Es betrüge in unserem Beispiel näherungsweise

\left[0,6-1,96\cdot {\sqrt {\frac {0,6(1-0,6)}{n}}};0,6+1,96\cdot {\sqrt {\frac {0,6(1-0,6)}{n}}}\right],

wobei 1,96 bekanntlicherweise das entsprechende Quantil der Standardnormalverteilung beim 95%-Konfidenzintervall darstellt.

In obigem Beispiel ist das interessierende Merkmal Zufriedenheit nominalskaliert, denn die Ausprägungen sind: Ja oder nein. Die Grundgesamtheit teilt sich also in die zufriedene und unzufriedene Kunden auf. Wir haben eine so genannte dichotome (zweigeteilte) Grundgesamtheit vor uns. Man könnte also die vorliegende Konstellation als Urnenmodell mit zwei Sorten Kugeln, etwa roten und blauen, auffassen. Der Anteil Θ der roten Kugeln in der Urne ist unbekannt. Wir ziehen n viele Kugeln und zählen die Zahl x der roten Kugeln in der Stichprobe. Θ wird nun mit p=x/n geschätzt.

Liegt nun beispielsweise ein metrisch skaliertes Merkmal vor, interpretieren wir es in der Grundgesamtheit als Zufallsvariable. Ihre unbekannten Verteilungparameter schätzen wir wieder mit entsprechenden Schätzern, zB. der Erwartungswert EX mit dem artithmetischen Mittel xquer und die Varianz varX mit der Stichprobenvarianz S^2.

Eine kurze Analyse für den Anfang

Wir wollen uns für den Anfang mit der Beispielsdatei Schiffe befassen. Es handelt sich hier eine - recht willkürlich - zusammengestellte Auflistung von Artillerieschiffen bei Anbruch des zweiten Weltkriegs.

Betrachten wir die Variable lang, die die Länge eines Kriegsschiffs repräsentiert. Es handelt sich hier um ein metrisches diskretes Merkmal. Wir wollen uns zuerst einen Eindruck der Verteilung verschaffen und erstellen mit SPSS ein Histogramm.

Histogramm der Länge eines Kriegsschiffs

Wir erkennen, dass die einzelnen Beobachtungen offensichtlich in gleich breite Intervalle einsortiert werden und dass dann die Zahl der Beobachungen in einem Intervall die Höhe einer Säule definiert. Hier handelt es sich um Intervalle der Breite 10 m. Das Muster der Verteilung ist etwas unklar, es sind mehrere Maxima auszumachen. So etwas deutet auf eine heterogene Gesamtheit hin, also auf eine Gesamtheit mit einigen sehr unterschiedlichen Teilmengen. Ein Beschriftung rechts der Grafik gibt uns noch zusätzliche Informationen:

Der Mittelwert beträgt ${\overline {x}}=164,92$ und die Standardabweichung der Daten $s=44,769$ .

Eine genauere Information über die Variable lang erfahren wir, wenn wir uns eine deskriptive Analyse geben lassen, etwa in SPSS:

Deskriptive Analyse des Merkmals Länge (lang)

Wir greifen den Mittelwert heraus und erinnern uns, dass er die Summe der Beobachungswerte, geteilt durch die Anzahl der Beobachtungen, darstellt:

{\overline {x}}={\frac {\sum \limits _{i=1}^{n}x_{i}}{n}},

also

{\overline {x}}={\frac {187+242+262+216...}{114}}=164,92,

und wir gewinnen die Erkenntnis, dass ein Schiff im Durchschnitt ca. 165 m lang war. Wir haben hier ein Maß für die Größenordnung, das Niveau oder auch die Lage der Daten. Der Mittelwert ist also ein Lageparameter.

Ebenfalls ein Lageparameter ist der Median. Der Median gibt den Wert in der Mitte an, wenn die Daten der Größe nach geordnet sind. Er ist in unserem Fall 174. Man kann also sagen, dass die 50% kleinsten Schiffe höchstens 174 m lang waren.

Bemerkung: Das arithmetische Mittel ist eigentlich nur für metrisch skalierte Daten zulässig, denn bei rangskalierten Daten können Bruchteile der gemessenen Einheit nicht mehr sinnvoll interpretiert werden. Man merkt es an einer Aussage wie "Ein Hotel hatte im Durchschnitt 2,3 Sterne". Dem Leser ist sicher das eigentlich aufgefallen. In der Praxis wird meistens diese Vorschrift großzügig umgangen, so werden beispielsweise in der Markforschung oder in der Medizin Mittelwerte bei rangskalierten Daten unbekümmert gebildet, da der Mittelwert den Anschein der größeren Genauigkeit vermittelt. Die persönliche Meinung des Autors dazu ist, dass hier das Faktische die Normen, wenn nicht festlegt, so doch aufweicht. Der Autor toleriert die Mittelwertbildung rangskalierter Daten als Orientierungshilfe, misst aber den genauen Werten nicht die volle Aussagekraft zu. Der Median kann allerdings bei rangskalierten Daten als Lageparameter fungieren.

Die Standardabweichung ist ebenfalls ein Klassiker der Datenanalyse. Sie ist die Wurzel aus der Varianz s² der Stichprobe. Diese Varianz berechnen wir als

s^{2}={\frac {\sum \limits _{i=1}^{n}(x_{i}-{\overline {x}})^{2}}{n-1}}

.

Sie ist die mittlere quadratische Abweichung der einzelnen Beoachtungen vom Mittelwert und gibt uns einen Eindruck von der Streubreite der Werte. Der numerische Wert ist unmittelbar meistens schwierig zu interpretieren, weil er nicht normiert ist. Aber im Zusammenhang der Analyse lassen sich wichtige Erkenntnisse gewinnen.

In der obigen Tabelle ist noch ein 95%-Konfidenzintervall für die durchschnittliche Länge alle Kriegsschiffe in der Grundgesamtheit angegeben. Es beträgt [156,61;173,23]. Wir entnehmen diesem Intervall als Information, dass die Wahrscheinlichkeit, dass der Erwartungswert der Zufallsvariablen Länge, die für alle Kriegsschiffe zutrifft, mit einer 95%igen Wahrscheinlichkeit in diesem Intervall liegt. Die Breite des Intervalls wird durch die Standardabweichung der Werte gebildet. Je größer die Standardabweichung, desto breiter das Intervall, desto schlechter die Abschätzung des Erwartungswertes.

Da die Vermutung naheliegt, dass wir es bei unseren Daten mit heterogenen Teilgesamtheiten zu tun haben, wurde die deskriptive Analyse noch nach den Schiffsklassen unterteilt. Es folgt ein etwas entschlackter Auszug aus der SPSS-Tabelle:

Univariate Statistiken: Länge (m) (lang)

Klasse (gruppe)		Statistik	Standardfehler
1 Schlacht	Mittelwert	208,19	5,98
	5% getrimmtes Mittel	208,53
	Median	204
	Varianz	1145,25
	Standardabweichung	33,84
	Interquartilbereich	51
3 schw Kreuzer	Mittelwert	185,1	3,36
	5% getrimmtes Mittel	186,24
	Median	188
	Varianz	236,99
	Standardabweichung	15,39
	Interquartilbereich	17
4 lei Kreuzer	Mittelwert	160,3	3,85
	5% getrimmtes Mittel	162,1
	Median	163
	Varianz	488,91
	Standardabweichung	22,11
	Interquartilbereich	29,5
5 Zerstörer	Mittelwert	105,79	2,16
	5% getrimmtes Mittel	105,26
	Median	103,5
	Varianz	130,62
	Standardabweichung	11,43
	Interquartilbereich	14

Dass die Mittelwerte für jede Schiffsklasse anders ist, haben schon die Histogramme angedeutet. Es ist aber auch jede Varianz anders und wir sehen, dass beispielsweise die Daten bei den Schlachtschiffen stärker streuen als bei den Zerstörern. Die Varianz bzw. Standardabweichung sind Streuungs- oder Dispersionsparameter.

Wir probieren etwas Neues aus: In SPSS hat man bei den Grafiken Histogramm und Balkendiagramm zur Auswahl. Wir lassen jetzt die Variable lang durch ein Balkendiagramm darstellen. Das Ergebnis ist befremdlich. Was ist hier passiert? Beim Balkendiagramm wird gezählt, wie häufig eine Ausprägung aufgetreten ist. Da bei einem stetigen Merkmal sehr viele verschiedene Ausprägungen auftreten, ähnelt das Balkendiagramm einem Rasen. Das Balkendiagramm eignet sich also für Variablen, die wenig Ausprägungen haben.

Wir betrachten jetzt die Datei Evaluation. Es sind dies reale Daten. Sehen wir uns die Variable stverst: "Der Stoff der Vorlesung war verständlich" etwas näher an. Diese Variable ist rangskaliert.

Ein Säulendiagramm verrät uns, dass die meisten Hörer den Stoff eher unverständlich fanden. Im Gegensatz zum stetigen Merkmal haben wir sehr viel mehr Möglichkeiten, die Verteilung der Variablen grafisch darzustellen. Man könnte ein Kreisdiagramm erstellen, ein Diagramm mit waagrechten Balken usw.

Verteilung des Merkmals

Grafiken zur Darstellung der Verteilung

Die Form der Verteilung lässt Rückschlüsse auf den Verteilungstyp des Merkmals zu. Von besonderem Interesse ist die Normalverteilung, weil sie keine Ausreißer hervorbringt und auch wahrscheinlichkeitstheoretische Vorzüge hat.

Symmetrische Verteilungen können annähernd normalverteilt sein. Die Normalverteilung hat viele schätztheoretische Vorzüge. Beispielsweise hat die Normalverteilung so gut wie keine Ausreißer in den Daten. Bei schiefen Verteilungen dagegen ist die Wahrscheinlichkeit für Ausreißer in den Daten relativ hoch.

Ausreißer

Was ist ein Ausreißer?

Es gibt eine einfache Definition, die sehr unscharf ist, aber intuitiv genau das ausdrückt, was man erwartet:

Ein Ausreißer ist ein Datenwert, der auffällig weit von der Masse der Daten entfernt ist.

Wie kommt ein Ausreißer zustande?

Das Merkmal entstammt einer Verteilung mit sehr großer Varianz Beispiel: Normalverteilung – Cauchyverteilung Das Merkmal entstammt verschiedenen Grundgesamtheiten.

Beispiel: Die Größe männlicher und weiblicher Dobermänner könnte eine zweigipflige Verteilung ergeben.

Ein Eingabefehler liegt vor.

Beispiel: Capitaldaten, ein Komma wurde vergessen.

Was bewirken Ausreißer? Numerische Probleme. Die Analyseergebnisse könnenwertlos werden. Beispiel: Regression mit Ausreißer.

Diagnose von Ausreißern:

Eine einfache Methode ist der Vergleich von Mittelwert und Median eines Merkmals. Weichen diese stark voneinander ab, deutet das auf Ausreißer in den Daten hin.

Ansonsten kann man Ausreißer relativ schnell und zuverlässig mit Hilfe von Verfahren aus der Explorativen Datenanalyse ermitteln.

Die EDA besteht aus einfachen Analyseverfahren, die von der Verteilung des Merkmals nicht beeinflusst werden (robust) und resistent gegenüber Ausreißern sind. Zudem können die Verfahren meistens schnell und von Hand durchgeführt werden.

Behandlung von Ausreißern:

Überprüfung auf Eingabefehler und Korrektur Sind nur wenige Ausreißer vorhanden, kann man die Werte aus den Daten entfernen. Entstammen die Ausreißer einer schiefen Verteilung, könnte man versuchen, die Daten mit einer sogenannten Powertransformation in eine annähernd symmetrische Verteilung zu überführen. Symmetrische Verteilungen sind deshalb erwünscht, weil Eigenschaften der Normalverteilung auf sie zutreffen.

Zurück zu Inhaltsverzeichnis