Statistik: Hypothesentests

Einführung an Hand eines Beispiels mit Wurstgläsern

Die Firma HappyWurscht stellt Wurstwaren her. Sie ist vor allem für ihre delikate Leberwurst in 250g-Gläsern bekannt. Diese werden durch eine Füllanlage mit der noch heißen, flüssigen Masse befüllt. Um Beanstandungen bezüglich der Füllmenge zu vermeiden, füllt man etwas mehr Masse als 250 g ein. Die Füllmenge schwankt immer leicht, aber es wird ein durchschnittliches Füllgewicht von 260g angestrebt. Die Qualitätssicherung soll die Einhaltung dieser Durchschnittsmenge überprüfen.


Überlegung zur Verteilung der Stichprobe

Es ist aber das durchschnittliche Füllgewicht eines Wurstglases unbekannt. Bekannt ist in diesem Beispiel lediglich, daß das Füllgewicht normalverteilt ist mit einer Varianz σ2 = 64 [g2].

Wie könnte man nun den Durchschnitt ermitteln? Man könnte eine Stichprobe mit z. B. n = 16 Beobachtungen ziehen und versuchen, aus dem arithmetischen Mittel   auf das durchschnittliche Füllgewicht der Grundgesamtheit zu schließen.

Wir betrachten nun das Füllgewicht eines Wurstglases. Wir bezeichnen es als Zufallsvariable X. Es soll geprüft werden, ob durchschnittlich 260g in einem Glas sind, d. h. ob EX = 260 ist.

Beträgt nun tatsächlich der wahre durchschnittliche Absatz der Grundgesamtheit μ0 = 260, kann man bei einer genügend großen Stichprobe vermuten, daß   in der Nähe von μ0 liegen müßte. Meistens wird   in der Nähe von μ0 liegen, da aber   die Realisation einer Zufallsvariablen ist, kann in sehr wenigen Fällen   auch extrem weit von μ0 weg liegen, so daß man dann μ verkehrt einschätzt.

 

Man könnte aber ein Intervall um μ0 bestimmen, in dem bei Vorliegen von μ0 z. B. 95% aller möglichen  -Werte liegen, also

 

Es wird dann eine konkrete Stichprobe genommen. Fällt   nicht in dieses Intervall  , ist   zu weit von μ0 weg. Man geht dann davon aus, dass μ0 ≠ 260 ist. Damit man dieses Intervall berechnen kann, müssen Informationen über die Verteilung von   verfügbar sein.

Ablauf eines Hypothesentests

Feststellung der Verteilung des Merkmals in der Grundgesamtheit

Die Zufallsvariable X: Füllgewicht eines Wurstglases ist normalverteilt mit einem unbekannten Erwartungswert μ und der bekannten Varianz varX = σ2 = 64. Man interessiert sich für den Parameter μ.

Aufstellen der Nullhypothese

Man stellt die Nullhypothese H0: μ = μ0 = 260 auf, d. h. man behauptet, das wahre unbekannte durchschnittliche Füllgewicht in der Grundgesamtheit betrage μ0 = 260.

Festlegen des Nichtablehnungsbereiches für H0

Zur Überprüfung der Hypothese soll eine Stichprobe im Umfang von n = 16 gezogen werden, die zu einer sog. Prüfgröße   zusammengefasst wird.

Der Stichprobendurchschnitt   ist selbst eine Zufallsvariable und ist als lineare Transformation von X wiederum normalverteilt und zwar mit den Parametern

  und  

Bei Gültigkeit von H0 ist also

 

hier

 
 

Nun wird der Bereich für   festgelegt, in dem die Nullhypothese nicht abgelehnt wird, der Nichtablehnungsbereich (NAB) [ u;  o]. Fällt die Prüfgröße   in diesem Bereich, wird H0 nicht abgelehnt. Es soll sein

 

Wir nennen α das Signifikanzniveau oder den α-Fehler: Das ist die Wahrscheinlichkeit, dass die Nullhypothese H0 abgelehnt wird, obwohl μ0 = 260 der wahre Parameter ist.

Bestimmung von [ u  ;  o]:

Standardisiert man mit

 

können wir analog zu oben

 
 

schreiben. Es ergibt als Intervall für Z:

 
 
Nichtablehnungsbereich der Nullhypothese für  

Es ist nun aber

  und  

so dass hier der Nichtablehnungsbereich für  

 

ist.

Wenn μ0 tatsächlich 260 ist, würde   in 5% aller Stichproben in den Ablehnungsbereich

 

fallen.

Stichprobe erheben

Nach der Festlegung des Nichtablehnungsbereichs wird eine Stichprobe genommen. Es wurde hier der Inhalt von 16 Gläsern gewogen. Es ergab sich die Urliste

268  252  254  252  251  245  257  275  268  270  253  250  266  265  250  267

Es ist dann

   .

Entscheidung treffen

Wir fällen nun die Entscheidung: Da   = 259 im Nichtablehnungsbereich liegt, wird H0 nicht abgelehnt. Es wird davon ausgegangen, dass die Maschine die Gläser korrekt befüllt.

Eine äquivalente Vorgehensweise ist, man bestimmt zunächst die standardisierte Prüfgröße z:

 

Der Nichtablehnungsbereich für Z ist [-1,96; 1,96]. Da z in den Nichtablehnungsbereich fällt, wird H0 nicht abgelehnt.

Beide Vorgehensweisen liefern das gleiche Ergebnis.

Punkt- und Bereichshypothesen

In obigen Beispiel wurde für das wahre μ nur ein bestimmter Punkt getestet: H0: μ = μ0, also handelt es sich um eine Punkthypothese. Es könnte aber sein, dass der Hersteller einem Großabnehmer versichert hat, dass das durchschnittliche Füllgewicht mindestens 260 g beträgt. Es wird also hier genügen, zu prüfen, ob der Mindestwert erreicht wird. Es ist aber kein Problem, wenn die durchschnittliche Füllmenge größer als 260 ist.

 
Ablehnungsbereich der Mindesthypothese H0: μ ≥ μ0 = 260

Man stellt also als Arbeitshypothese auf: H0: μ ≥ μ0 = 260. Wird die Prüfgröße   geringfügig kleiner als 260, kann das eine Zufallsschwankung sein. Aber wird   zu klein, muss H0 abgelehnt werden. Da hier nur der Bereich links von μ0 kritisch für die Ablehnung ist, wird das gesamte α links auf dem Zahlenstrahl plaziert, der kritische Wert für z ist also z(α) = -z(1-α). Fällt z in den Ablehnungsbereich (-∞; -z(1-α)], wird H0 abgelehnt. Man geht dann davon aus, dass μ kleiner als μ0 sein muss, dass also die Befüllung nicht ordnungsgemäß ist. Der kritische Wert für   ist hier

 

also

 

Wenn die Stichprobe ein Durchschnittsgewicht von weniger als 256,7g ergibt, wird die Lieferung beanstandet.

Entsprechend erhält man unter der Hypothese H0: μ ≤ μ0 für die Prüfgröße z den Ablehnungsbereich [z(1-a); ∞) bzw.

 

Fehler und Varianzen

Fehlerarten

Warum wird der α-Fehler als Fehler bezeichnet? Hier wollen wir uns zunächst mal überlegen, welche Fehler bei der Entscheidung überhaupt gemacht werden können?

 
Vermischung der hypothetischen und tatsächlichen Verteilung
  1. H0 ist wahr, die Prüfgröße fällt aber in den Ablehnungsbereich (in α * 100% aller Stichproben). Hier würde man H0 irrtümlicherweise ablehnen, obwohl H0 wahr ist: α-Fehler oder Fehler 1. Art. In unserem Beispiel würde also die Lieferung möglicherweise zurückgewiesen werden, obwohl die Gläser korrekt befüllt worden sind.
  2. H0 ist falsch, die Prüfgröße fällt aber in den Nichtablehnungsbereich. In Wirklichkeit ist μ = μ1 , z. B. μ1 = 255 g. Jetzt ist bei unveränderter Varianz in Wahrheit der Stichprobendurchschnitt   verteilt wie
 

Unter dieser Verteilung beträgt die Wahrscheinlichkeit, dass H0 (fälschlicherweise) nicht abgelehnt wird,

 

was sich einfach berechnen lässt als

 

Man würde also mit fast 20%iger Wahrscheinlichkeit irrtümlicherweise die Lieferung akzeptieren. Dieser Fehler ist der β-Fehler oder Fehler 2. Art.

Wenn in Wahrheit μ = μ2 = 252 ist, beträgt der β-Fehler

 
 

Hier ist die Wahrscheinlichkei einer irrtümlichen Ablehnung schon sehr klein.

 
Operationscharakteristik zur Hypothese: μ ≤ 260

Der β-Fehler hängt also von μ1 ab. Man kann den β-Fehler in Abhängigkeit von μ1 als Funktion darstellen: β = f(μ1). Diese Funktion nennt man Operationscharakteristik. Der Wert 1 - β ist dagegen die Wahrscheinlichkeit, dass H0 abgelehnt wird, wenn μ1 der wahre Parameter ist. Man sieht an der Grafik, dass 1 - β für μ = 260 gerade 0,05 ist. Das ist natürlich die Wahrscheinlichkeit, dass H0 (hier fälschlicherweise) abgelehnt wird, wenn 260 tatsächlich der wahre Parameter ist.

Um die Wahrscheinlichkeit für eine falsche Entscheidung zu reduzieren, ist es wünschenswert, möglichst schnell in den Bereich β ≈ 0 zu kommen. U. U. hilft eine Erhöhung des Stichprobenumfangs.

Eine Hypothese, die nicht abgelehnt ist, gilt nicht automatisch als angenommen, denn der β-Fehler ist i.a. unbekannt.

Wenn ein Test die Wahrscheinlichkeit der Annahme falscher Nullhypothesen möglichst reduziert, nennt man ihn trennscharf.

Breite des Nichtablehnungsbereichs

Es soll nun wieder die Punkthypothese H0: μ = μ0 betrachtet werden. Es ergab sich hier für   der Nichtablehnungsbereich [256,08; 263,92] mit einer Breite 7,84 g.

Änderung des Signifikanzniveaus

Welcher NAB ergibt sich für α = 0,01? Wir errechnen das (1 - α/2)-Quantil als

 

und erhalten den Nichtablehnungsbereich für   als

 .

Hier ist der Nichtablehnungsbereich breiter als für α = 0,05: H0 wird nur in 1% aller Stichproben fälschlicherweise abgelehnt. Hier hätte die Lieferfirma einen Vorteil.

Welcher NAB ergibt sich für α = 0,1?

 .

Hier ist der Nichtablehnungsbereich schmäler, H0 wird in 10% aller Stichproben fälschlicherweise abgelehnt.

Änderung der Varianz

Was passiert, wenn die Varianz σ2 = 256 ist (α = 0,05)? Man erhält hier für die Punkthypothese H0: μ = μ0 = 260 den NAB für  

 .

Die Breite des Nichtablehnungsbereichs ist hier 15,68g.

Für H;0: μ ≥ μ0 ergibt sich dann entsprechend als kritischer Wert

 .

Die Grafik zeigt den Fall der Bereichshypothese mit einer Varianz von 16: Durch die große Varianz sind die Normalverteilungskurven sehr flach und durchmischen sich stark. Der Betafehler bei μ1 = 255 ist sehr groß. Eine vernünftige Kontrolle der Abfüllmaschine ist nicht mehr möglich.

 
Der Betafehler bei großen Varianzen

Der Nichtablehnungsbereich wird mit wachsender Varianz breiter, der Test verliert an Trennschärfe.

Änderung des Stichprobenumfangs

Was passiert, wenn der Stichprobenumfang jetzt 64 beträgt (α = 0,05; σ2 = 64)?

 
Der Betafehler bei kleinen Varianzen
 .

Hier hat der Nichtablehnungsbereich eine Breite von 3,92, denn durch den größeren Stichprobenumfang hat sich die Varianz von   verringert. Der NAB schrumpft bei steigendem Stichprobenumfang, der Test wird trennschärfer.


Mindest erforderlicher Stichprobenumfang

Wie groß muß die Stichprobe mindestens sein, damit die Breite des NAB für α = 0,05 höchstens 10 beträgt?

Die Breite des NAB ist ja definiert durch

 .

Es soll also hier sein

 .

Die Auflösung der Ungleichung nach   ergibt dann

  und  .

Da wir nur ganze Wurstgläser analysieren können, brauchen wir einen Stichprobenumfang von mindestens 630 Gläsern.

Kann die Wurst mit dem Glas zusammen gewogen werden, stellt diese hohe Zahl kein Problem dar. Geht durch so eine Stichprobe allerdings die Zerstörung der Ware mit einher, etwa die lebensmitteltechnische Untersuchung einer Konservendose, muss man einen Kompromiss zwischen mangelnder Trennschärfe und Zerstörung der Ware finden.