Statistik: Hypergeometrische Verteilung

Das Urnenmodell ohne Zurücklegen bestimmt die hypergeometrisch verteilte Zufallsvariable.

Gegeben ist eine Urne mit zwei Sorten Kugeln. Man spricht von einer dichotomen (griech: zweigeteilten) Grundgesamtheit. Es sind insgesamt N Kugeln in der Urne und M Kugeln der ersten Sorte. Der Anteil der Kugeln erster Sorte ist also

,

(0 ≤ θ ≤ 1). Es werden n viele Kugeln ohne Zurücklegen gezogen. Es ist die Zufallsvariable definiert:

X: Anzahl der Kugeln 1. Sorte unter den n gezogenen Kugeln.

Beispiele für Hypergeometrische Verteilungen

  • In einer Urne befinden sich 3 schwarze und 12 weiße Kugeln. Es werden fünf Kugeln ohne Zurücklegen gezogen (Modell ohne Zurücklegen). Wir definieren X als Zahl der weißen Kugeln bei n = 5 Entnahmen.
  • Einem Fertigungslos von 100 Kondensatoren werden 10 Kondensatoren entnommen. Erfahrungsgemäß sind 15% der Kondensatoren schadhaft. X: Zahl der schadhaften Kondensatoren unter den 10 gezogenen.


Eine Zufallsvariable X ist hypergeometrisch verteilt mit den Parametern N, M und n, wenn ihre Wahrscheinlichkeitsfunktion lautet

 

Die Verteilungsfunktion P(X ≤ a) = H(a|N; M; n) ergibt sich als Summe der Wahrscheinlichkeiten einer diskreten Zufallsvariablen, wie in Zufallsvariablen oder Diskrete Zufallsvariablen erläutert.

Weitere Kennwerte der hypergeometrischen Verteilung sind Erwartungswert und Varianz,

  und  

Der letzte Bruch wird Korrekturfaktor genannt; er korrigiert die Varianz bei einem Modell ohne Zurücklegen. Wir können leicht sehen, dass für eine sehr große Grundgesamtheit (N) dieser Faktor etwa 1 wird. Bei einer großen Grundgesamtheit kann man also das Modell ohne Zurücklegen durch ein Modell mit Zurücklegen annähern.


Beispiel:

Von den sechs Rettichen, die eine Marktfrau auf dem Wochenmarkt verkauft, sind vier holzig. Der Student Paul sucht sich 4 Rettiche aus. Man könnte sich nun fragen: Mit welcher Wahrscheinlichkeit erwischt er alle holzigen?

Hier haben wir es unzweifelhaft mit einem Modell ohne Zurücklegen zu tun. Da wir holzige und nicht holzige Rettiche vor uns haben, ist die betrachtete Grundgesamtheit dichotom (zwei Sorten Kugeln in der Urne).

Wir definieren als Zufallsvariable X: Zahl der holzigen Rettiche bei n = 4 Entnahmen.

X ist also hypergeometrisch verteilt mit den Parametern N = 6, M = 4 und n = 4, in Kurzschreibweise

  .

Wir werden zunächst die Wahrscheinlichkeitsfunktion von X bestimmen:

X = 0   0
X = 1   0
X = 2    
X = 3    
X = 4    

Überlegen Sie sachlogisch, warum die ersten beiden Wahrscheinlichkeiten Null sind.

Der Student Paul wird also mit einer Wahrscheinlichkeit von 1/15 alle vier holzigen Rettiche erwischen.

Bemerkung

Werden M oder N groß, wird die Berechnung der Binomialkoeffizienten ein numerisches Problem, das allerdings beispielsweise mit der Stirling-Formel gelöst werden kann. Da der Unterschied zwischen einem Modell ohne Zurücklegen und mit Zurücklegen bei großem N unerheblich wird (ob man bei einer Entnahme 10000 oder 10001 Kugeln in der Urne hat, macht zahlenmäßig wenig aus), kann man bei großem N auch näherungsweise ein Modell mit Zurücklegen (siehe hierzu Binomialverteilung) verwenden. Häufig ist auch N unbekannt, hier kann das Modell ohne Zurücklegen gar nicht berechnet werden.