Statistik: Hypothesentests
Einführung an Hand eines Beispiels mit Wurstgläsern
Die Firma HappyWurscht stellt Wurstwaren her. Sie ist vor allem für ihre delikate Leberwurst in 250g-Gläsern bekannt. Diese werden durch eine Füllanlage mit der noch heißen, flüssigen Masse befüllt. Um Beanstandungen bezüglich der Füllmenge zu vermeiden, füllt man etwas mehr Masse als 250 g ein. Die Füllmenge schwankt immer leicht, aber es wird ein durchschnittliches Füllgewicht von 260g angestrebt. Die Qualitätssicherung soll die Einhaltung dieser Durchschnittsmenge überprüfen.
Überlegung zur Verteilung der Stichprobe
Es ist aber das durchschnittliche Füllgewicht eines Wurstglases unbekannt. Bekannt ist in diesem Beispiel lediglich, daß das Füllgewicht normalverteilt ist mit einer Varianz σ2 = 64 [g2].
Wie könnte man nun den Durchschnitt ermitteln? Man könnte eine Stichprobe mit z. B. n = 16 Beobachtungen ziehen und versuchen, aus dem arithmetischen Mittel auf das durchschnittliche Füllgewicht der Grundgesamtheit zu schließen.
Wir betrachten nun das Füllgewicht eines Wurstglases. Wir bezeichnen es als Zufallsvariable X. Es soll geprüft werden, ob durchschnittlich 260g in einem Glas sind, d. h. ob EX = 260 ist.
Beträgt nun tatsächlich der wahre durchschnittliche Absatz der Grundgesamtheit μ0 = 260, kann man bei einer genügend großen Stichprobe vermuten, daß in der Nähe von μ0 liegen müßte. Meistens wird in der Nähe von μ0 liegen, da aber die Realisation einer Zufallsvariablen ist, kann in sehr wenigen Fällen auch extrem weit von μ0 weg liegen, so daß man dann μ verkehrt einschätzt.
Man könnte aber ein Intervall um μ0 bestimmen, in dem bei Vorliegen von μ0 z. B. 95% aller möglichen -Werte liegen, also
Es wird dann eine konkrete Stichprobe genommen. Fällt nicht in dieses Intervall , ist zu weit von μ0 weg. Man geht dann davon aus, dass μ0 ≠ 260 ist. Damit man dieses Intervall berechnen kann, müssen Informationen über die Verteilung von verfügbar sein.
Ablauf eines Hypothesentests
Feststellung der Verteilung des Merkmals in der Grundgesamtheit
Die Zufallsvariable X: Füllgewicht eines Wurstglases ist normalverteilt mit einem unbekannten Erwartungswert μ und der bekannten Varianz varX = σ2 = 64. Man interessiert sich für den Parameter μ.
Aufstellen der Nullhypothese
Man stellt die Nullhypothese H0: μ = μ0 = 260 auf, d. h. man behauptet, das wahre unbekannte durchschnittliche Füllgewicht in der Grundgesamtheit betrage μ0 = 260.
Festlegen des Nichtablehnungsbereiches für H0
Zur Überprüfung der Hypothese soll eine Stichprobe im Umfang von n = 16 gezogen werden, die zu einer sog. Prüfgröße zusammengefasst wird.
Der Stichprobendurchschnitt ist selbst eine Zufallsvariable und ist als lineare Transformation von X wiederum normalverteilt und zwar mit den Parametern
- und
Bei Gültigkeit von H0 ist also
hier
Nun wird der Bereich für festgelegt, in dem die Nullhypothese nicht abgelehnt wird, der Nichtablehnungsbereich (NAB) [ u; o]. Fällt die Prüfgröße in diesem Bereich, wird H0 nicht abgelehnt. Es soll sein
Wir nennen α das Signifikanzniveau oder den α-Fehler: Das ist die Wahrscheinlichkeit, dass die Nullhypothese H0 abgelehnt wird, obwohl μ0 = 260 der wahre Parameter ist.
Bestimmung von [ u ; o]:
Standardisiert man mit
können wir analog zu oben
schreiben. Es ergibt als Intervall für Z:
Es ist nun aber
- und
so dass hier der Nichtablehnungsbereich für
ist.
Wenn μ0 tatsächlich 260 ist, würde in 5% aller Stichproben in den Ablehnungsbereich
fallen.
Stichprobe erheben
Nach der Festlegung des Nichtablehnungsbereichs wird eine Stichprobe genommen. Es wurde hier der Inhalt von 16 Gläsern gewogen. Es ergab sich die Urliste
268 252 254 252 251 245 257 275 268 270 253 250 266 265 250 267
Es ist dann
- .
Entscheidung treffen
Wir fällen nun die Entscheidung: Da = 259 im Nichtablehnungsbereich liegt, wird H0 nicht abgelehnt. Es wird davon ausgegangen, dass die Maschine die Gläser korrekt befüllt.
Eine äquivalente Vorgehensweise ist, man bestimmt zunächst die standardisierte Prüfgröße z:
Der Nichtablehnungsbereich für Z ist [-1,96; 1,96]. Da z in den Nichtablehnungsbereich fällt, wird H0 nicht abgelehnt.
Beide Vorgehensweisen liefern das gleiche Ergebnis.
Punkt- und Bereichshypothesen
In obigen Beispiel wurde für das wahre μ nur ein bestimmter Punkt getestet: H0: μ = μ0, also handelt es sich um eine Punkthypothese. Es könnte aber sein, dass der Hersteller einem Großabnehmer versichert hat, dass das durchschnittliche Füllgewicht mindestens 260 g beträgt. Es wird also hier genügen, zu prüfen, ob der Mindestwert erreicht wird. Es ist aber kein Problem, wenn die durchschnittliche Füllmenge größer als 260 ist.
Man stellt also als Arbeitshypothese auf: H0: μ ≥ μ0 = 260. Wird die Prüfgröße geringfügig kleiner als 260, kann das eine Zufallsschwankung sein. Aber wird zu klein, muss H0 abgelehnt werden. Da hier nur der Bereich links von μ0 kritisch für die Ablehnung ist, wird das gesamte α links auf dem Zahlenstrahl plaziert, der kritische Wert für z ist also z(α) = -z(1-α). Fällt z in den Ablehnungsbereich (-∞; -z(1-α)], wird H0 abgelehnt. Man geht dann davon aus, dass μ kleiner als μ0 sein muss, dass also die Befüllung nicht ordnungsgemäß ist. Der kritische Wert für ist hier
also
Wenn die Stichprobe ein Durchschnittsgewicht von weniger als 256,7g ergibt, wird die Lieferung beanstandet.
Entsprechend erhält man unter der Hypothese H0: μ ≤ μ0 für die Prüfgröße z den Ablehnungsbereich [z(1-a); ∞) bzw.
Fehler und Varianzen
Fehlerarten
Warum wird der α-Fehler als Fehler bezeichnet? Hier wollen wir uns zunächst mal überlegen, welche Fehler bei der Entscheidung überhaupt gemacht werden können?
- H0 ist wahr, die Prüfgröße fällt aber in den Ablehnungsbereich (in α * 100% aller Stichproben). Hier würde man H0 irrtümlicherweise ablehnen, obwohl H0 wahr ist: α-Fehler oder Fehler 1. Art. In unserem Beispiel würde also die Lieferung möglicherweise zurückgewiesen werden, obwohl die Gläser korrekt befüllt worden sind.
- H0 ist falsch, die Prüfgröße fällt aber in den Nichtablehnungsbereich. In Wirklichkeit ist μ = μ1 , z. B. μ1 = 255 g. Jetzt ist bei unveränderter Varianz in Wahrheit der Stichprobendurchschnitt verteilt wie
Unter dieser Verteilung beträgt die Wahrscheinlichkeit, dass H0 (fälschlicherweise) nicht abgelehnt wird,
was sich einfach berechnen lässt als
Man würde also mit fast 20%iger Wahrscheinlichkeit irrtümlicherweise die Lieferung akzeptieren. Dieser Fehler ist der β-Fehler oder Fehler 2. Art.
Wenn in Wahrheit μ = μ2 = 252 ist, beträgt der β-Fehler
Hier ist die Wahrscheinlichkei einer irrtümlichen Ablehnung schon sehr klein.
Der β-Fehler hängt also von μ1 ab. Man kann den β-Fehler in Abhängigkeit von μ1 als Funktion darstellen: β = f(μ1). Diese Funktion nennt man Operationscharakteristik. Der Wert 1 - β ist dagegen die Wahrscheinlichkeit, dass H0 abgelehnt wird, wenn μ1 der wahre Parameter ist. Man sieht an der Grafik, dass 1 - β für μ = 260 gerade 0,05 ist. Das ist natürlich die Wahrscheinlichkeit, dass H0 (hier fälschlicherweise) abgelehnt wird, wenn 260 tatsächlich der wahre Parameter ist.
Um die Wahrscheinlichkeit für eine falsche Entscheidung zu reduzieren, ist es wünschenswert, möglichst schnell in den Bereich β ≈ 0 zu kommen. U. U. hilft eine Erhöhung des Stichprobenumfangs.
Eine Hypothese, die nicht abgelehnt ist, gilt nicht automatisch als angenommen, denn der β-Fehler ist i.a. unbekannt.
Wenn ein Test die Wahrscheinlichkeit der Annahme falscher Nullhypothesen möglichst reduziert, nennt man ihn trennscharf.
Breite des Nichtablehnungsbereichs
Es soll nun wieder die Punkthypothese H0: μ = μ0 betrachtet werden. Es ergab sich hier für der Nichtablehnungsbereich [256,08; 263,92] mit einer Breite 7,84 g.
Änderung des Signifikanzniveaus
Welcher NAB ergibt sich für α = 0,01? Wir errechnen das (1 - α/2)-Quantil als
und erhalten den Nichtablehnungsbereich für als
- .
Hier ist der Nichtablehnungsbereich breiter als für α = 0,05: H0 wird nur in 1% aller Stichproben fälschlicherweise abgelehnt. Hier hätte die Lieferfirma einen Vorteil.
Welcher NAB ergibt sich für α = 0,1?
- .
Hier ist der Nichtablehnungsbereich schmäler, H0 wird in 10% aller Stichproben fälschlicherweise abgelehnt.
Änderung der Varianz
Was passiert, wenn die Varianz σ2 = 256 ist (α = 0,05)? Man erhält hier für die Punkthypothese H0: μ = μ0 = 260 den NAB für
- .
Die Breite des Nichtablehnungsbereichs ist hier 15,68g.
Für H;0: μ ≥ μ0 ergibt sich dann entsprechend als kritischer Wert
- .
Die Grafik zeigt den Fall der Bereichshypothese mit einer Varianz von 16: Durch die große Varianz sind die Normalverteilungskurven sehr flach und durchmischen sich stark. Der Betafehler bei μ1 = 255 ist sehr groß. Eine vernünftige Kontrolle der Abfüllmaschine ist nicht mehr möglich.
Der Nichtablehnungsbereich wird mit wachsender Varianz breiter, der Test verliert an Trennschärfe.
Änderung des Stichprobenumfangs
Was passiert, wenn der Stichprobenumfang jetzt 64 beträgt (α = 0,05; σ2 = 64)?
- .
Hier hat der Nichtablehnungsbereich eine Breite von 3,92, denn durch den größeren Stichprobenumfang hat sich die Varianz von verringert. Der NAB schrumpft bei steigendem Stichprobenumfang, der Test wird trennschärfer.
Mindest erforderlicher Stichprobenumfang
Wie groß muß die Stichprobe mindestens sein, damit die Breite des NAB für α = 0,05 höchstens 10 beträgt?
Die Breite des NAB ist ja definiert durch
- .
Es soll also hier sein
- .
Die Auflösung der Ungleichung nach ergibt dann
- und .
Da wir nur ganze Wurstgläser analysieren können, brauchen wir einen Stichprobenumfang von mindestens 630 Gläsern.
Kann die Wurst mit dem Glas zusammen gewogen werden, stellt diese hohe Zahl kein Problem dar. Geht durch so eine Stichprobe allerdings die Zerstörung der Ware mit einher, etwa die lebensmitteltechnische Untersuchung einer Konservendose, muss man einen Kompromiss zwischen mangelnder Trennschärfe und Zerstörung der Ware finden.