Statistik: Stetige Zufallsvariablen

Beispiel eines Zeitungskiosks

Dichtefunktion

 
Dichtefunktion von X

Die Zufallsvariable X: „An einem Tag verkaufte Menge an Tageszeitungen (in 100) eines Zeitungskiosks“ lässt sich beschreiben mit der (in diesem Fall frei erfundenen) Dichtefunktion

 

Diese Zufallsvariable X ist nun stetig, d.h. sie hat in jedem Intervall a ≤ X ≤ b unendlich viele Ausprägungen.

Eine Analyse der Grafik zeigt, dass diese Dichtefunktion symmetrisch bezüglich 8 ist, was die Berechnung von Wahrscheinlichkeiten sehr erleichtert.

 
W', dass X höchstens 7 ist

Wir wollen nun die Wahrscheinlichkeit bestimmen, dass an einem Tag höchstens 700 Zeitungen verkauft werden, also P(X ≤ 7). Wenn wir analog zu der diskreten Zufallsvariablen vorgehen, wo wir „die Summe der Stäbchen“ ermittelten, müsste die Wahrscheinlichkeit P(X ≤ a) hier „unendlich viele Stäbchen“, also eine Fläche ergeben.

Wir berechnen die Dreiecksfläche mit Hilfe der Geometrie:

 
 

Es ist übrigens auch

 

denn bei einer stetigen Zufallsvariablen ist P(X = x) = 0, da es als unmöglich angesehen wird, genau einen bestimmten Wert x zu „treffen“. Man betrachtet also bei einer stetigen Zufallsvariablen nur Wahrscheinlichkeiten der Art P(X ≤ x) o.ä.


Es ist P(X ≤ 8) = 0,5, wie man der Grafik sofort entnimmt.


 
W', dass X mindestens 9 ist

  denn wie man sieht, ist die Fläche von P(X ≥ 9) genau gleich der Fläche P(X ≤ 7).


Außerdem ist  


Bestimmen wir die Wahrscheinlichkeit eines Intervalls. Es ergibt

P(8 < X ≤ 9) = P(X ≤ 9) - P(X ≤ 8) = 0,875 - 0,5 = 0,375,

wenn man die Rechenregel für P(a < X ≤ b) anwendet.


 
W', dass X höchstens 9 ist
 
W', dass X zwischen 8 und 9 liegt

Verteilungsfunktion

Man kann Wahrscheinlichkeiten von X auch als Verteilungsfunktion darstellen. Sucht man die Wahrscheinlichkeit P(X a), muss also das Integral von -∞ bis a berechnet werden:

 

Bei unserem Beispiel sind wir mit verschiedenen Bereichen konfrontiert:

1. a < 6

 

2. 6 ≤ a ≤ 8

 

3. 8 < a ≤ 10

 

4. a > 10

 

 

 


Wir erhalten beispielsweise durch Einsetzen in F(x)

 
 


Quantil

Das Quantil x(p) gibt die Ausprägung x an, die zu einem bestimmten Verteilungswert p = F(x) gehört. Es handelt sich beim Quantil x(p) also gerade um die Umkehrfunktion der Verteilungsfunktion F(x).

Beispiele

x(0,875) = 9, d.h. zur Wahrscheinlichkeit 0,875 gehört der x-Wert 9.

Ebenso ist x(0,5) = 8. D.h. 8 ist der Median, also wurden an 50% aller Tage höchstens 800 Zeitungen verkauft.


Übung

Bestimmen Sie P(6,25 < X < 8,75). Mit welcher Wahrscheinlichkeit wurden an den 50% besten Tagen mindestens 900 Zeitungen verkauft? Gesucht ist hier P(X > 9| X > 8).

Was Sie speziell über stetige Zufallsvariablen wissen sollten

Eine stetige Zufallsvariable kann in jedem beschränkten Intervall unendlich viele Ausprägungen annehmen. Ihre Verteilung lässt sich durch eine Dichtefunktion f(x) beschreiben. f(x) ist keine Wahrscheinlichkeit, sondern eine Dichte.

  • Die Verteilungsfunktion ist
 
  • Es gilt: P(X = a) = 0.
  • Wegen P(X = a) = 0 ist P(X ≤ a) = P(X < a) und P(X > a) = P(X ≥ a)
  • Die Dichtefunktion f(x) ist die erste Ableitung der Verteilungsfunktion, falls diese an der Stelle x differenzierbar ist.
  • Die Dichtefunktion f(a) kann auch größer als 1 werden.
  • Ausgehend von   ist das p-Quantil x(p) der Wert x, der zu einer gegebenen Wahrscheinlichkeit p gehört. Speziell x(0,5) ist der Median.
  • Der Erwartungswert einer stetigen Zufallsvariablen ist analog zu oben
  falls EX existiert, d.h.   nicht unendlich wird.
  • Ihre Varianz ist
 

wobei auch hier der Verschiebungssatz angewendet werden kann:

 

Bei symmetrisch verteilten Zufallsvariablen ist im Allgemeinen der Erwartungswert der Zufallsvariablen gleich dem Median.

In unserem Beispiel ist also EX = 8, denn die Verteilung ist symmetrisch. Das bedeutet, dass im Durchschnitt pro Tag 800 Zeitungen umgesetzt werden.

Wendet man die gegebene Formel für EX auf unser Beispiel an, so erhält man:

 

Entsprechend gilt für die Varianz:

 

Beispiel: Eingehende Anrufe bei Fernsehabstimmungen

 
Verteilung von lnx - ln2

Während einer Fernsehsendung wurden die Zuschauer aufgefordert, telefonisch abzustimmen. Die Leitungen wurden um 14 Uhr freigeschaltet. Dann konnten die Zuschauer bis ca. 17.30 Uhr anrufen. Für die eintreffenden Anrufe ergab sich näherungsweise die Verteilungsfunktion der stetigen Zufallsvariablen X: Zeitpunkt (Uhrzeit), an dem ein Anruf eintrifft, wie folgt:

 

Sei jetzt   ein beliebiger Anruf.

Wir wollen nun bestimmen

  1. die Dichtefunktion f(x)
  2. die Wahrscheinlichkeit, dass bis höchstens 15 Uhr der Anruf   eingegangen ist.
  3. die Wahrscheinlichkeit, dass zwischen 15 und 16 Uhr der Anruf   eingegangen ist.
  4. die Uhrzeit, zu der 90% aller Anrufe eingetroffen sind
  5. den Median
  6. den Erwartungswert
  7. die Varianz

Die Grafik der Verteilung F(X) zeigt den typischen Verlauf einer logarithmischen Funktion.

1. Dichtefunktion f(x)

 
Dichtefunktion von lnx - ln2

Die Dichtefunktion ist immer die erste Ableitung der Verteilungsfunktion: f(x) = F'(x).

Unsere Verteilungsfunktion ist abschnittsweise definiert. Wir müssen bereichsweise ableiten (dass die Funktion an den Knickstellen möglicherweise nicht differenzierbar ist, tut im Allgemeinen nicht weh, Hauptsache, die Fläche ergibt 1).

Bereich x < 2:  
Bereich 2 ≤ x ≤ 2e:  
Bereich x > 2e:  

Wir wollen jetzt f(x) noch ordentlich angeben:

 

Betrachten wir mal die Dichtefunktion: Man sieht hier deutlich, dass die meisten Anrufe in den ersten 1,5 Stunden nach Freischalten eingelaufen sind. Danach flaut die Zahl der Anrufe allmählich ab.


2. Wahrscheinlichkeit, dass bis höchstens 15 Uhr der Anruf ω eingegangen ist

Gesucht ist P(X ≤ 3). In der Dichtefunktion ist das die Fläche von 2 bis 3. Diese Fläche ist das Selbe wie der Funktionswert F(3). Wir erhalten

 

Man kann also sagen, dass in einer Stunde ab Freischalten der Leitungen 40% der Anrufe eingegangen sind.

 
Fläche der Dichtefunktion für P(X<3)
 
Verteilungsfunktion für P(X<3)
 
Fläche der Dichtefunktion für P(3 < X < 4)

3. Wahrscheinlichkeit, dass zwischen 15 und 16 Uhr der Anruf ω eingegangen ist

Gesucht ist hier P(3 ≤ X ≤ 4). Wir wissen schon, dass speziell für stetige Zufallsvariablen (bei diskreten muss man noch zwischen < und ≤ unterscheiden) gilt: P(3 ≤ X ≤ 4) = P(X ≤ 4) - P(X ≤ 3). Wir erhalten dann

   
   
   
   

4. Uhrzeit, zu der 90% aller Anrufe eingetroffen sind

Hier ist die Wahrscheinlichkeit 0,9 gegeben und wir suchen den X-Wert, der zu dieser Wahrscheinlichkeit passt, also P(X ≤ ?) = 0,9. Gesucht ist also das 90%-Quantil. Wir bilden den Ansatz

F(?) = 0,9 oder etwas professioneller: F(x(0,9)) = 0,9, also

 ,

d.h. etwa um 16.55 waren 90% der Anrufe eingegangen.


5. Median

Der Median ist das 50%-Quantil. Es ergibt sich also analog zu oben:

 


6. Erwartungswert

Der Erwartungswert der Zufallsvariablen X wird bei einer stetigen Zufallsvariablen integriert:

 

Wir müssen hier wieder bereichsweise vorgehen und bestimmen zunächst mal die Teilintegrale:

Bereich x < 2:  
Bereich 2 ≤ x ≤ 2e:  .
Bereich x > 2e:  

Wir müssen nun die Teilintegrale addieren und erhalten

 .

Es kam also ein Anruf im Durchschnitt um 15.30 an.


7. Varianz

Die Varianz berechnet sich nach der Formel

 .

Analog zu oben erhalten wir

 .