Wir betrachten ein Beispiel: Werbewirksamkeit der Farbe eines Verkaufsregals
Eine Unternehmung, die Tee aus fairem Anbau vertreibt, überlegt, für die Verkaufsregale ein einheitliches Design zu entwerfen. Als Farbe kommen ein dunkleres Gelb oder ein helles Türkis in Frage. Es werden in 11 Supermärkten gelbe Regale und in 9 Supermärkten türkise Regale aufgestellt. Es geht darum, ob sich die mittleren Umsätze bezüglich der Farbe unterscheiden.
Wir bezeichnen mit die Zahl der Pakete, die in den ersteren Märkten, und mit die Zahl der Pakete, die in den letzteren Märkten verkauft wurden. Die beiden Zufallsvariablen sind normalverteilt, jeweils mit dem Erwartungswert : bzw. .
Von Interesse ist, ob der durchschnittliche Absatz von Teepackungen aus gelben Regalen gleich dem von türkisen Regalen sein könnte. Wir testen also
.
Welche Prüfgröße nimmt man hier? Die obige Hypothesenstellung ist da wenig hilfreich, denn wir haben hier eine Gleichung als unbekannten Parameter. Wir können aber umformen zu
.
Nun brauchen wir noch eine passende Schätzfunktion für die Differenz der Erwartungswerte: Es bieten sich die entsprechenden arithmetischen Durchschnitte und an, die durchschnittlichen Absatzzahlen von Teepaketen je Regalfarbe. Die Differenz ist natürlich wieder eine Zufallsvariable, die ebenfalls normalverteilt ist. Ihr Erwartungswert ist , wie uns von linearen Transformationen von Zufallsvariablen bekannt ist. Wären die Varianzen von und bekannt, ergäbe sich die Varianz von als Summe der Varianzen von und , also . Wir hätten also nun normalverteilte Prüfgröße
.
Leider ist der Statistikgott grausam und verrät uns normalerweise die Varianzen in den Grundgesamtheiten nicht. Hier beginnt die Tragödie: Da wir die Varianzen schätzen müssen, erhalten wir eine -verteilte Prüfgröße. Nun ist die -Verteilung nicht reproduktiv, eine Summe von -verteilten Zufallsvariablen ist nicht per se wieder -verteilt. Wir bekommen also bei der Bestimmung der Prüfgrößenverteilung Probleme. Wir sind mit zwei Möglichkeiten konfrontiert:
Die Varianzen der sind gleich.
Hier ist die resultierende -Verteilung reproduktiv, und die Ermittlung der Verteilung einfach.
Die Varianzen sind ungleich.
Im Nenner der Prüfgröße befinden sich nun die Wurzeln zweier verschiedener Quadratsummen. Hier können wir keine exakte Verteilung der Prüfgröße angeben. Wir haben eine -Verteilung mit einer unbekannten Zahl von Freiheitsgraden, die lediglich näherungsweise bestimmt werden können.
Meistens wird wohl getestet, ob es generell zwischen den beiden Erwartungswerten einen Unterschied gibt, als Punkthypothese
,
als Bereichshypothesen
,
.
Bemerkung: Es kann mal vorkommen, dass wir eine Hypothese gegeben haben, was bedeutet, ist größer als . Hielten wir uns an die Prüfgröße der Formel mit dem Zähler , müssten wir die Hypothese umformen zu . Das Hantieren mit Ungleichungen bereitet Anfängern häufig Schwierigkeiten. Wir können es aber auch in der Hypothese bei belassen und in die Prüfgröße statt des Zählers die Differenz schreiben, was uns die Umdrehung der Ungleichung erspart. Ansonsten hat das keine Auswirkungen, denn die Ausdrücke mit den Varianzen bleiben gleich.
Vergleich von Erwartungswerten, wenn die Varianzen gleich sind
Sind die Varianzen gleich, steht auch nur eine Varianz im Nenner der Prüfgröße. Wir berechnen aus allen Beobachtungen die gemeinsame Stichprobenvarianz , die auch gepoolte Varianz genannt wird. Nennen wir die Daten aus der ersten Stichprobe und die der zweiten Stichprobe . Die Gesamtzahl aller Beobachtungen ist dann . Die gepoolte Varianz wird ermittelt als
,
was wir auch schreiben können als
.
Woher wissen wir eigentlich, dass die Varianzen gleich sind, wenn wir sie gar nicht kenne? Das können wir mit einem Test auf Gleichheit der Varianzen zweier Zufallvariablen rauskriegen.
Wird dieser Test nicht abgelehnt, vermuten wir Gleichheit der Varianzen (mit allen Problemen des β-Fehlers, die man bei Nichtablehnung einkauft) und erhalten die Prüfgröße
,
die wegen zu
vereinfacht werden kann. im Nenner entspricht dem , das wir von schon kennen.
ist -verteilt mit Freiheitsgraden. Es gehen hier zwei Freiheitsgrade verloren, denn bei der Berechnung der Varianz ersetzen wir die unbekannten Erwartungswerte und durch die Schätzer und .
Vorgehensweise:
Der Stichprobenwert der Prüfgröße ist
.
Wir verwenden die Entscheidungsregeln
wird abgelehnt, falls oder ist.
wird abgelehnt, falls ist.
wird abgelehnt, falls ist.
Nun wollen wir unser Verkaufsregalbeispiel durchrechnen:
Wir testen bei einem .
Zuerst müssen wir den Nichtablehnungsbereich festlegen: Laut obiger Vorschrift ist er das Intervall
Nun werden wir die Prüfgröße berechnen:
In den Supermärkten mit den gelben Regalen wurden
25 28 35 30 18 27 26 21 27 30 30
Päckchen verkauft, und in den Supermärkten mit den türkisen Regalen
30 18 24 26 27 23 18 24 26
viele. Es ergeben sich die Schätzungen , , und .
Die Nullhypothese, dass die Varianzen gleich sind, wird nicht abgelehnt (hier). Wir berechnen somit die gepoolte Varianz als
beziehungsweise
.
Die Stichprobe ergibt also
Die Nullhypothese kann nicht abgelehnt werden. Die Farbe der Regale scheint die Kauflust nicht zu beeinflussen.
Vergleich von Erwartungswerten, wenn die Varianzen ungleich sind
Für die Nullhypothesen verwenden wir jetzt analog zur obigen Formel
die entsprechende Prüfgröße
,
die bei normalverteilter Grundgesamtheit grundsätzlich -verteilt ist.
Die Freiheitsgrade können jetzt nur näherungsweise ermittelt werden mit der Formel
Wir verwenden die Entscheidungsregeln
wird abgelehnt, falls oder ist.
wird abgelehnt, falls ist.
wird abgelehnt, falls ist.
Beispiel
Es wurden Studentinnen und Studenten befragt, wie viel Zeit sie in in der Woche für das Pauken einer vorgeschriebenen Fremdsprache aufwendeten .
Beim Signifikanzniveau soll geprüft werden, ob Studentinnen im Durchschnitt weniger Zeit aufwenden als Studenten, also
bzw. .
Es ergaben sich die Kennwerte , , und . Der Test auf Varianzgleichheit wurde abgelehnt. Die Zahl der Freiheitsgrade ist dann
Da wir eine Höchststhypothese haben, packen wir den Ablehnungsbereich ans obere Ende der Verteilung und entscheiden so: Wenn der Wert der Prüfgröße ist, wird abgelehnt.
In unserem Beispiel haben wir es allerdings bei mit mehr als 30 Freiheitsgraden zu tun. Deshalb können wir die Prüfgröße als näherungsweise normalverteilt ansehen. Und wir lehnen nun ab, wenn ist. Für erhalten wir
.
Da ist, wird die Hypothese abgelehnt. Studentinnen wenden vermutlich im Mittel mindestens genau so viel Zeit für das Erlernen von Sprachen auf wie Studenten.
Vergleich der Erwartungswerte von zwei Zufallsvariablen unbekannter Verteilung
Wir werden gelegentlich mit Daten konfrontiert sein, die wir bei bestem Willen nicht als normalverteilt andienen können. Ist der Stichprobenumfang genügend groß, kann die Verteilung der Prüfgröße als annähernd standardnormalverteilt angesehen werden.
Wir gehen so vor:
Es wird der Unterschied der Erwartungswerte und geprüft. Verteilung und Varianz von und sind unbekannt.
Wenn und oder gilt, ist die Prüfgröße für
näherungsweise normalverteilt.
wird abgelehnt, falls oder ist.
wird abgelehnt, falls ist.
wird abgelehnt, falls ist.
Vergleich der Anteilswerte zweier binomialverteilter Grundgesamtheiten
Wir betrachten zwei Urnen mit je zwei Sorten Kugeln. Zu jeder Urne (auch Grundgesamtheit genannt) gehört eine binomialverteilte Zufallsvariable und . Von Interesse könnte sein, ob die Parameter und verschieden sind. Wir testen also die Anteilswerte auf Gleichheit:
bzw.
bei der komplementären Alternativhypothese .
Es werden zufällig bzw. Kugeln mit Zurücklegen entnommen.
Für den Test müssen die s geschätzt werden: Der Anteilswert in der ersten Urne wird mit dem Stichprobenanteil , entsprechend mit geschätzt.
Bei genügend großem Stichprobenumfang ist die Differenz der zu Grunde liegenden Zufallsvariablen näherungsweise normalverteilt.
Wir wenden wieder das bekannte Approximationskriterium an:
Wenn und sind, ist die resultierende Prüfgröße näherungsweise standardnormalverteilt.
Unter sind die Anteilswerte gleich, also dann auch ihre Varianz . Wir berechnen diese mit Hilfe des gepoolten Anteilswerts
Für die Prüfgröße verwenden wir den Stichprobenwert
Unsere Entscheidungsregeln lauten:
wird abgelehnt, falls oder ist.
wird abgelehnt, falls ist.
wird abgelehnt, falls ist.
Bemerkung: Grundsätzlich kann wie beim Vergleich von Erwartungswerten auch bei diesem Test auf einen bestimmten Unterschied hin geprüft werden. Es sollen hier aber lediglich die Tests auf Gleichheit betrachtet werden .
Beispiel: Zufriedenheit bei Bahnkunden
Ein privater Bahnbetreiber veranlasst zum Zweck der Qualitätssicherung eine Kundenbefragung. Unter anderem wurden die Kunden in die Kategorien Senior (mindestens 60 Jahre alt) und jüngerer Fahrgast eingeteilt. Während einer Zugfahrt wurden jüngere Fahrgäste und Senioren befragt. Von den jüngeren Fahrgästen wünschten 49, dass man auch ein Fahrrad mitnehmen kann, bei den Senioren waren es 22. Es soll bei die Hypothese getestet werden, dass der Anteil der jüngeren Fahrgäste, die das Rad mitnehmen wollen, größer ist als der entsprechende Anteil der Senioren.
Zu prüfen ist
Der Stichprobenanteil für berechnet sich als und der für als .
Zuerst müssen wir prüfen, ob die Prüfgröße näherungsweise normalverteilt ist.
Es sind
und
.
Wir können also mit der Normalverteilung approximieren und lehnen die Hypothese ab, wenn , also ist.
Nun brauchen wir noch den gepoolten Anteilswert
Der Stichprobenwert der Prüfgröße ist dann
liegt im Nichtablehnungsbereich. Es liegt also kein signifikanter Unterschied zwischen den Wünschen der beiden Gruppen vor.