Verfassen wissenschaftlicher Texte: Statistische Absicherung von Daten

Statistik

Das zentrale Problem der Wissenschaft ist es, eine Messung sorgfältig durchzuführen.
Die Statistik befasst sich mit der Sammlung, dem Zusammenstellen und der Analyse von Zahlenmaterial. Bei statistischen Erhebungen fallen i.d.R. haufenweise Einzeldaten an, welche zu einer unüberschaubaren Datenmenge werden. Mit Hilfe der Wahrscheinlichkeitsrechnung können Wahrscheinlichkeitsverteilungen näherungsweise bestimmt werden. Die Ergebnisse können dann zur Analyse statistischer Daten verwendet werden.

Arten von Statistik

deskriptive Statistik (beschreibende Statistik, empirische Statistik):

Dieser Bereich der Statistik befasst sich mit der geeigneten Beschreibung und Zusammenfassung vorliegender Daten. Mit ihren Methoden werden quantitative Daten zu Tabellen, graphischen Darstellungen und Kennzahlen verdichtet. So wird mit der deskriptiven Statistik versucht, die unüberschaubare Datenmenge auf möglichst wenige, aber aussagekräftige Zahlen zu reduzieren.

induktive Statistik (schließende Statistik, mathematische Statistik):

Bei der induktiven Statistik werden aus den Daten einer Stichprobe Rückschlüsse auf die Eigenschaften einer Grundgesamtheit gemacht. Erforderliche Verfahren gehen aus der Wahrscheinlichkeitstheorie hervor.

explorative Statistik (hypothesen-generierende Statistik, Data Mining):

Im Bereich der explorativen Statistik werden mögliche Zusammenhänge bzw. Unterschiede zw. Daten in vorhandenen Datenbeständen mit Hilfe deskriptiver systematisch gesucht und zugleich in ihrer Stärke und Ergebnissicherheit zu bewerten versucht. Die Ergebnisse stellen Hypothesen dar, welche durch induktive Verfahren abgesichert werden.

Messniveaus

Bei der Auswertung und Absicherung von Daten muss darauf geachtet werden, welches Messniveau die Datenmerkmale besitzen. Im Folgenden werden die unterschiedlichen Messniveaus aufgeführt und kurz erläutert.

Nominales Messniveau:

Wenn sich die Merkmalsausprägungen beliebig umordnen lassen, spricht man von Merkmalen mit nominalem Messniveau. Beispiele: Geschlecht, Beruf

Ordinales Messniveau:

Merkmale mit ordinalem Messniveau besitzen eine feste Reihenfolge. Die Abstände zw. den Merkmalen sind aber nicht bekannt. Beispiel: Noten

Quantitatives Messniveau (metrische Daten):

Liegen Daten mit quantitativem Messniveau vor, so lassen sich deren Merkmalsausprägungen ordnen und deren Abstände angeben. Die Bildung von Summen und Differenzen ist hier inhaltlich sinnvoll
Beispiel: Häufigkeiten

Aufbereitung der Daten:

Für eine klare Analyse der Daten ist es erforderlich, diese zu ordnen, zu tabellieren und darzustellen.

Urliste

Zu Beginn werden die Messungen für jede statistische Einheit durchgeführt und auf einer Urliste notiert. In die Urliste werden die Daten in der Reihenfolge ihrer Entstehung aufgezeichnet. Sie enthält den maximalen Grad an Information.

Beispiel:

Nummer	Geschlecht	Beruf	Alter	Kinderzahl
1	w	Kauffrau	42	2
2	w	Studentin	23	0
3	m	Schlosser	33	unbekannt
…	…	…	…	…
N	w	unbekannt	29	0

Aufgrund der Unübersichtlichkeit dieser Urliste und der schwierigen Identifikation wesentlicher Merkmale, muss diese im weiteren Verlauf vereinfacht werden. Hierdurch entstehen natürlich Informationsverluste.

Datenmatrix

Als nächstes können die Daten kodiert und anschließend in eine Datenmatrix übertragen werden.

Beispiel:

Variable	Merkmalsausprägung	Kodierung
Geschlecht	m	1
	w	2
	unbekannt	-9999
Beruf	Arbeiter	1
	Angestellter	2
	Sonstiges	3
	unbekannt	-9999
Alter	x = Altersangabe in Jahren	x
	Unbekannt	-9999
Kinderzahl	x = Kinderzahl	x
	unbekannt	-9999

Datenmatrix:

Nummer	Geschlecht	Beruf	Alter	Kinderzahl
1	2	2	42	2
2	2	3	23	0
3	1	1	33	-9999
…	…	…	…	…
N	2	-9999	29	0

Mit Hilfe dieser Datenmatrix kann eine Häufigkeitsverteilung vorgenommen werden.

Häufigkeitsverteilung

Für die Datenanalyse müssen zunächst für jedes Merkmal die Daten zusammengefasst werden. Aus jeweils einer Spalte der Datenmatrix wird die absolute Häufigkeit jeder Merkmalsprägung errechnet. Die relative Häufigkeit (p) ergibt sich aus der absoluten Häufigkeit einer Prägung, bezogen auf alle Merkmalsprägungen (Summe = 1). Der Vorteil von relativen Häufigkeiten ist, dass Grundgesamtheiten oder Stichproben unterschiedlicher Größe miteinander verglichen werden können. Relative Häufigkeiten sollten jedoch nur angegeben werden, wenn die Menge an vorhandenen Daten groß genug ist, um eine Angabe in Prozent auch rechtfertigen zu können. Für den Fall einer Meinungsumfrage ist es z.B. nicht sinnvoll die Ergebnisse relativ anzugeben, wenn sich die Anzahl der Umfrageteilnehmer nur auf zehn Personen beschränkt. Die Anzahl der Teilnehmer sollte natürlich immer in der Auswertung mit angegeben werden.

Wenn sehr viele verschiedene Merkmalsausprägungen vorliegen, müssen diese zunächst in Klassen (k) eingeteilt werden, um sie zu reduzieren und geeignet darstellen zu können.

Oft empfiehlt es sich, Bereiche in denen viele Werte angesiedelt sind, als Klassenmitte zu wählen. Daher bestehen bei Klasseneinteilungen oft keine äquidistanten Grenzen.

Beispiel:

k	untere Klassengrenze	obere Klassengrenze	Klassenmitte	Absolute Häufigkeit	relative Häufigkeit
1	0	unter 100	50	27	0.135
2	100	unter 200	150	49	0.245
3	200	unter 300	250	37	0.185
4	300	unter 400	350	28	0.140
5	400	1000	700	59	0.295
∑				200	1.000

Die Verwendung offener Klassen (untere Grenze (α_k) = -∞ bzw. obere Grenze (α_k+1) = +∞) sollte vermieden werden, da sie dann nicht mehr metrisch sind. Außerdem sollten aufgrund guter Handhabbarkeit überschaubare Klassenzahlen verwendet werden.

Graphische Darstellung

Die Darstellung eines Merkmals mit wenigen Ausprägungen erfolgt in einem Stab- oder Kreisdiagramm.

Stabdiagramm: Auf der Ordinate werden die Häufigkeiten und auf der Abszisse die Merkmalsausprägungen aufgetragen.

Kreisdiagramm: Der Winkel α der Kreissektoren ist proportional zur rel. Häufigkeit

Klassen werden in Stabdiagrammen oder Histogrammen dargestellt

Histogramm: Bei einem Histogramm werden Rechtecke über die Klassenintervalle [ $\alpha _{k}\,$ ; $\alpha _{k+1}\,$ ] errichtet. Die Fläche eines Rechtecks stellt die rel. Häufigkeit der jeweiligen klassifizierten Merkmalsausprägung dar. Aufgrund verschieden großer Intervalle kann die Rechteckbreite variieren. Die Höhe muss dementsprechend angepasst werden. Höhe: $f_{k}={\frac {p_{k}}{\alpha _{k+1}-\alpha _{k}}}$ , k=1,…,K Da die Breite der Klassen berücksichtigt wird, ist die Höhe der Rechtecke nicht mit der rel. Häufigkeit gleichzusetzen.

Des Weiteren ist zu beachten, dass kein Histogramm erstellt werden kann, falls offene Klassen vorliegen.

Lagemaße

Ziel der Lageparameter ist es, das Charakteristikum der Daten durch eine einzige Zahl auszudrücken. Das ermittelte Lagemaß ist i.d.R. umso repräsentativer, je mehr Werte in der Berechnung des Lagemaßes einfließen. Die Wahrscheinlichkeit, dass Ausreißer das Ergebnis maßgeblich reduzieren, wird somit z.B. reduziert.

Es seien die Messwerte oder Umfrageergebnisse:

Arithmetisches Mittel

ein Vorteil des arithmetischen Mittels ist die einfache Berechnung. Nachteilig ist jedoch, dass ausreißende Werte das Ergebnis verfälschen.

Das arithmetische Mittel ist nur auf metrische Variablen anwendbar.

Gewichtetes arithmetisches Mittel

    ,  … Gewichte

Ein Beispiel für die Verwendung des gewichteten arithmetischen Mittels ist die Berechnung der Note des universitären Abschlusses. Die Credits stellen in diesem Fall die Gewichte dar.

Wenn die Summe der Gewichte 1 ergibt, dann kann folgende Formel verwendet werden:

Vorteil dieser Mittelwertbildung ist, dass die unterschiedlichen Bedeutungen der Einzelwerte berücksichtigt werden. Ausreißer verfälschen jedoch auch bei dieser Mittelwertbildung das Ergebnis.

Das gewichtete arithmetische Mittel ist nur auf metrische Variablen anwendbar.

Medianwert ( )

Wenn die x-Werte numerisch angeordnet sind und n ungerade ist, so ist der Medianwert der Wert, der in der Mitte dieser Reihe steht. Ist n gerade, so ist er das arithmetische Mittel der mittleren beiden Werte.

Beispiel:

- 1, 3, 6, 7, 9, 9, 10 Medianwert: 7

- 1, 3, 6, 7, 9, 9, 10, 12 Medianwert:

Der Median ist im Allgemeinen ein guter Mittelwert, da bei diesem die Ausreißer nicht das Ergebnis verfälschen.

Der Median ist nur für metrische Variablen geeignet.

Modalwert (M)

Der Modalwert ist derjenige Wert, welcher am häufigsten vorkommt.

Wenn zwei oder mehrere verschiedene Werte gleich häufig auftreten, doch keiner öfter, hat die Menge der x keinen Modalwert oder ist multimodal. Bei solchen Verteilungen macht es jedoch keinen Sinn, die Modalwerte anzugeben, da sie kein sinnvolles Ergebnis liefern.

Streuungsmaße

Die Angabe des Lagemaßes reicht in den meisten Fällen nicht aus, oder ist sogar nicht möglich, da z.B. die Abstände zw. den gemittelten Werten nicht gleich sind. Es ist daher erforderlich, zusätzlich zum Lagemaß ein Streuungsmaß aufzuführen. Das Streuungsmaß gibt einen Hinweis darüber, wie gut die Urliste durch den Mittelwert repräsentiert wird. Durch dieses Maß ist z.B. ersichtlich, ob sich die Werte um einen Mittelwert häufen oder ob sie mehr oder weniger gleichmäßig über das ganze Spektrum verstreut sind.

Spannweite (R)

Die Spannweite ist das einfachste zu ermittelnde Streuungsmaß. Es gibt an, wie breit der Bereich ist, über den sich die ermittelten Werte erstrecken.
Nachteilig ist jedoch, dass nur zwei extreme Werte zur Berechnung der Streuung verwendet werden. Es wird also nur ein kleiner Teil der Dateninformationen genutzt.

Standardabweichung (σ)

 	, N…Grundgesamtheit

Die Varianz ist die durchschnittliche quadratische Abweichung vom Mittelwert. Große Abweichungen werden überproportional gewichtet.

Für eine Stichprobe gilt:

Wenn die Daten klassifiziert sind, müssen die Gewichtungen berücksichtigt werden:

	(für die Grundgesamtheit)
	(für die Stichprobe)

Bei geringer Standardabweichung häufen sich die Messungen um den Mittelwert. Bei einer großen Standardabweichung sind sie weit verstreut.

Standardabweichung und Varianz sind nur für metrische Variablen definiert. Die Standardabweichung darf nur auf Normalverteilungen angewendet werden.

Bei der Auswertung sollte die Standardabweichung immer mit angegeben werden. Bei Umfragen kann so eine Aussage darüber getroffen werden, ob die Meinungen der Umfrageteilnehmer nah bei einander liegen oder ob starke Meinungsverschiedenheiten bestehen.

Variationskoeffizient (v)

Zum Vergleich von Streuungen verschiedener Grundgesamtheiten bzw. Stichproben kann der Variationskoeffizient herangezogen werden. Es ist ein dimensionsloses Streuungsmaß.

Fehlerrechnung

Messergebnisse sind immer mit einem gewissen Messfehler behaftet. Dieses ist die Differenz zwischen der gemessenen Größe und des wahren Wertes. Falls mehrere Messgrößen vorliegen, pflanzen sich die Messfehler in der Rechnung fort. In der Fehlerrechnung wird versucht, die Einflussnahme der Messfehler auf das Ergebnis in Zahlen zu fassen. Die Fehlerrechnung sollte bei jeder Auswertung von Daten mit einfließen.

Die Messfehler der Messgeräte sind durch Messgenauigkeiten vorgegeben und können so für die Auswertung der Messung berücksichtigt werden. Über zufällige Fehler kann erst eine Aussage getroffen werden, wenn man mehrere Messungen vorgenommen hat. Bei n Messungen wird nach einem möglichst guten Näherungswert am wahren Messwert gesucht.

Der mittlere Fehler je Messung ergibt sich aus folgender Formel:

Aufgrund der Fehlerwahrscheinlichkeit von Messdaten, empfiehlt es sich des Weiteren, Toleranzen zu setzen. Werte, welche sich außerhalb dieser Toleranz befinden, können dann für die folgende Datenaufbereitung vernachlässigt werden. Bei der Darstellung der Ergebnisse müssen jedoch auch die verwendeten Toleranzen angegeben und unter Umständen abweichende Werte benannt werden.

Zurück | Hoch | Weiter