Statistik: Schätzen und Testen

Es folgt nun die große Abteilung des Schätzens und Testens, was man auch als induktive Statistik bezeichnet, induktiv deshalb, weil wir von speziellen Beobachtungen auf grundlegende Gesetze stochastischer Phänomene wie Grundgesamtheiten schließen.

Fastfood-Beispiel

Bearbeiten

Betrachten wir ein Beispiel, um die erforderliche "Denke" zu üben:

Ein Fastfood-Anbieter betreibt eine große Anzahl Filialen. Im Mittelpunkt des Interesses steht der monatliche Gewinn einer Filiale. Es ist bekannt, dass die Zufallsvariable  : Gewinn einer Filiale (in 1000 €) normalverteilt ist. Für die weitere Zukunftsplanung benötigt die Unternehmensleitung Informationen über die Verteilungsparameter, den Erwartungswert   und die Varianz  , die unbekannt sind. Um Informationen über diese Parameter zu erhalten, nimmt man eine Stichprobe – man erhebt   viele Beobachtungen der Variablen – und schätzt mit dieser Stichprobe die Parameter.

 

Es wird hier der Gewinn von   zufällig ausgewählten Filialen erhoben.

Die Parameter sollen nun geschätzt werden. Der interessierende Gewinn   ist in Wahrheit normalverteilt mit dem Durchschnittswert   und der Varianz   was jedoch unbekannt ist.

Für die Schätzung des Durchschnittswertes   wird eine Stichprobe gemacht. Es werden neun Filialen befragt und dann wird der mittlere Gewinn berechnet. Man versucht also, den Durchschnittsgewinn der Grundgesamtheit mit dem Durchschnittsgewinn in der Stichprobe zu schätzen.

Den Gewinn einer Filiale Nr.  bezeichnen wir als Zufallsvariable  , denn zu jeder ausgewählten Firma   gehört eine eigene Zufallsvariable. Eine konkrete Beobachtung bezeichnen wir wie gewohnt als  .

Beispielsweise ergab sich

Stichprobe Nr.                    
1 9,26 10,31 15,8 11,43 14,01 6,53 6,3 11,16 3,98 9,86

Die Schätzung von  , das arithmetische Mittel  , betrug   .

  liegt erwartungsgemäß in der Nähe von 10. Bei einer stetigen Zufallsvariablen wird man theoretisch so gut wie nie ein   erhalten, das genau gleich   ist, denn die Wahrscheinlichkeit dafür ist nahezu Null, wie wir ja von stetigen Zufallsvariablen wissen.

Welche Methoden gibt es nun,   zu schätzen?

Durch   , also  

oder durch den Median  , also  , der fünfte Wert  , wenn man die Werte der Größe nach ordnet.

Welche Schätzung ist besser? Bei jeder Stichprobe können   und   anders ausfallen, weil ihre Werte immer von den Realisationen der   abhängen. Stichprobenmittel und -median sind also selbst Zufallsvariablen   bzw.  . Sie sind eine Funktion der Stichprobenvariablen  .

Statistische Wiederholungen

Bearbeiten

Fastfood-Beispiel: Wir gehen modellhaft bei der Variablen "Gewinn" von einer Zufallsvariablen  : Gewinn einer Filiale aus.   ist normalverteilt mit dem Erwartungswert 10 und der Varianz 16, was aber den Betreibern unbekannt ist.

Es werden nun jeden Monat zu Kontrollzwecken 9 zufällig ausgewählte Filialen analysiert. Aus den Gewinnen der neun Filialen wird jeweils das arithmetische Mittel berechnet.

Es wird also jeden Monat eine Stichprobe mit 9 Realisationen ( ) der Zufallsvariablen   bis   erhoben. Es ergab sich die unten folgende Tabelle. Man sieht, dass die einzelnen Werte stark schwanken und damit auch die Stichprobenmittel und –mediane unterschiedlich ausfallen. Ganz rechts sehen wir eine Spalte  , also das arithmetische Mittel aus kleinstem und größtem Wert in der Zeile.

Stichprobe Nr.                        
1 9,26 10,31 15,8 11,43 14,01 6,53 6,3 11,16 3,98 9,86 10,31 9,89
2 4,46 6,22 13,89 11,31 12,83 9,67 10,19 7,49 9,79 9,54 9,79 9,175
3 5,73 12,42 3,3 13,1 14,7 8,73 14,04 14,12 9,64 10,64 12,42 9,00
4 8,76 22,24 10,44 11,2 9,16 8,9 13,98 9,96 8,74 11,49 9,96 15,49
5 2,14 11,48 5,83 13,45 10,51 12,8 8,49 8,01 11,69 9,38 10,51 7,795
6 12,52 6,53 11,46 7,87 9,9 10,77 4,86 11,26 15,38 10,06 10,77 10,12
7 4,64 12,22 10,27 7,97 12,26 16,27 6,5 13,88 10,13 10,46 10,27 10,455
8 11,64 5,18 11,73 11,19 10,59 11,48 9,00 10,23 10,56 10,18 10,59 8,46
9 10,93 5,05 12,81 10,23 4,81 8,86 11,52 6,01 14,6 9,42 10,23 9,705
10 12,1 10,42 9,04 8,23 16,2 14,57 13,1 7,3 6,44 10,82 10,42 11,32
11 2,57 14,67 13,09 10,15 10,5 6,28 8,34 13,26 11,09 9,99 10,5 8,62
12 3,45 10,42 8,86 10,16 -1,17 8,71 10,25 -0,36 4,84 6,13 8,71 4,62
13 11,21 11,09 -2,77 16,24 11,59 9,08 5,38 12,57 9,14 9,28 11,09 6,735
14 8,62 6,78 9,62 15,45 12,9 7,19 7,61 16,49 15,04 11,08 9,62 11,63
15 13,23 7,92 10,17 15,38 7,6 7,8 13,85 13,58 13,41 11,44 13,23 11,49
16 9,35 12,09 11,76 9,05 11,89 12,76 11,42 9,07 11,81 11,02 11,76 10,905
17 6,6 4,16 7,8 17,3 10,22 10,74 6,66 13,61 5,47 9,17 7,8 10,73
18 4,01 15,34 8,28 11,49 7,83 7,37 8,51 9,98 14,21 9,67 8,51 9,675
19 6,21 1,72 0,55 4,85 7,14 12,3 13,33 0,39 12,96 6,61 6,21 6,86
20 9,66 10,17 13,75 8,3 11,32 12,09 11,79 5,23 16,5 10,98 11,32 10,865

Da man mit den Funktionen   und   einen Parameter schätzt, nennt man sie Schätzfunktionen.

  ist z. B. normalverteilt mit dem Erwartungswert   und der Varianz  , was wir beispielsweise hier noch mal nachlesen können.

  ist also eine Schätzfunktion für  . Nennen wir diese Funktion   (  wie estimator), also  . Und ebenso ist   eine Schätzfunktion für  ,  .

Man könnte sich noch andere Schätzfunktionen   für   ausdenken, z. B.   oder   oder   usw.

Jeder kann sehen, dass in unserer Sammlung von Schätzfunktionen, oder auch Schätzer genannt, sinnvolle Schätzer und Schätzer von zweifelhaftem Wert versammelt sind. Wir können jeden beliebigen Unsinn zu einem Schätzer erklären, es gibt da kein Gesetz. Aber es gibt einige anerkannte Anforderungen an brauchbare Schätzer. Welche Anforderungen stellen wir also an eine Schätzfunktion?

Anforderungen an eine Schätzfunktion

Bearbeiten
  • Sie sollte im Durchschnitt den wahren Parameter ergeben, also  . Man nennt so eine Schätzfunktion erwartungstreu.
 
erwartungstreu: Die Schätzungen streuen gleichmäßig um  
 
verzerrt: Die Schätzungen befinden sich systematisch links von  
  • Die Varianz der Schätzfunktion sollte möglichst klein sein, damit die resultierenden E-Werte nicht so weit vom Erwartungswert abweichen.
 
kleine Varianz: Die Schätzung wird in einem kleinen Intervall bleiben
 
große Varianz: Die Schätzungen streuen wild herum, sind wenig vertrauenserweckend

Welche Schätzfunktionen könnten erwartungstreu sein?

Da es sich bei   um eine normalverteilte Zufallsvariable handelt, sind sowohl   als auch   erwartungstreu für  , denn hier fallen Erwartungswert und Median zusammen. Aber auch das etwas verquere   ist erwartungstreu, denn der kleinste und größte Wert einer Stichprobe nehmen im Durchschnitt den zentralen Wert   in die Mitte. Die anderen vorgeschlagenen Schätzer sind natürlich Unsinn.

Wir wollen die Statistiken der 20 Stichproben betrachten. Beispielsweise ergibt sich für das Mittel der  -Werte

 

und für die Mediane   das Mittel

 

Die Varianz der Mittelwerte berechnen wir als  

In der folgenden Tabelle sind die arithmetischem Mittel und Standardabweichungen der Schätzungen für alle 20 Stichproben zusammengefasst:

Schätzung für        
Mittelwert 9,861 10,20 9,68
Varianz 1,956 2,46 5,13

Man sieht schon hier, dass die Schätzfunktion   die kleinste Varianz hat.

Man nennt eine erwartungstreue Schätzfunktion mit kleinster Varianz einen besten Schätzer.

Von größerem Interesse ist auch die Varianz einer Zufallsvariablen. Die erwartungstreue Schätzfunktion für die Varianz ist die Stichprobenvarianz

 

Für die erste Stichprobe ergibt sich dann die Schätzung

 

Beachte: Der Nenner   statt   in der obigen Formel ergäbe einen verzerrten Schätzer, hier würde die Varianz unterschätzt. Man nennt diese Form der Varianz deskriptive Varianz. Sie wird häufig "für den Hausgebrauch" verwendet.

Bemerkung: Häufig kennzeichnet man den konkreten Schätzwert für einen unbekannten Parameter mit einem Dach, also beispielsweise

  • Erwartungswert  :  
  • Varianz  :  
  • 50%-Quantil   einer normalverteilten Zufallsvariablen  :   (Median der Stichprobe)

Schätzen wir einen unbekannten Parameter durch einen konkreten Wert, den wir mit Hilfe der dazugehörigen Schätzfunktion ermittelt haben, sprechen wir von einer Punktschätzung. Wie dieses? Weil wir bei einer vorliegenden Stichprobe einen einzigen Wert erhalten, also einen Punkt. Es gibt nämlich auch Intervallschätzungen, die im nächsten Abschnitt erläutert werden.