Statistik: Regressionsanalyse

Einfaches lineares Regressionsmodell

Einführung mit Beispiel einer Preis-Absatz-Funktion

 
Streudiagramm von Preis und abgesetzter Menge an Sektflaschen

Eine renommierte Sektkellerei möchte einen hochwertigen Rieslingsekt auf den Markt bringen. Für die Festlegung des Abgabepreises soll zunächst eine Preis-Absatz-Funktion ermittelt werden. Dazu wurde in n = 6 Geschäften ein Testverkauf durchgeführt. Man erhielt sechs Wertepaare mit dem Ladenpreis x (in Euro) einer Flasche und die verkaufte Menge y an Flaschen:

Laden i 1 2 3 4 5 6
Preis einer Flasche xi 20 16 15 16 13 10
verkaufte Menge yi 0 3 7 4 6 10

Modell

 
Wahre unbekannte und geschätzte Regressionsgerade

Man geht von folgendem statistischen Modell aus:

Man betrachtet zwei Variablen, die vermutlich ungefähr in einem linearen Zusammenhang

 

stehen. Dabei sind x als unabhängige und y als abhängige Variable definiert. Man nennt auch x erklärende oder exogene Variable und y Zielvariable oder endogene Variable. Es existieren von x und y je n Beobachtungen xi und yi (i = 1, ... , n). Der funktionale Zusammenhang y = f(x) zwischen x und y kann nicht exakt festgestellt werden, da α + βx von einer Störgröße u überlagert wird, die nichterfassbare Einflüsse (menschliches Verhalten, Messungenauigkeiten usw.) mit einschließt. Es ergibt sich also das Modell

 

mit den einzelnen Beobachtungen

 

Da α und βx nicht bekannt sind, kann y auch nicht in die Komponenten α + βx und u zerlegt werden.

Es soll eine mathematische Schätzung für die Parameter α und β durch zwei Konstanten a und b gefunden werden, und zwar so, daß sich ergibt

 ,

wobei di das Residuum bezeichnet, die Abweichung des beobachteten y- Wertes vom geschätzten. Es gibt verschiedene Möglichkeiten, die Regressiongerade zu schätzen. Man könnte eine Gerade so durch den Punkteschwarm legen, dass die Quadratsumme der Residuen, also der senkrechten Abweichungen di der Punkte von dieser Ausgleichsgeraden minimiert wird.

Beispiel zum Modell der Grundgesamtheit

 
Tabelle 1: Daten

In einem breit angelegten Versuch wird ein Flüssigdünger an in Nährlösung gezogenen Peperonis untersucht. Es wird wöchentlich jeder Pflanze eine bestimmte Menge Dünger verabreicht. Nach zwei Monaten wird der Gesamtertrag einer Pflanze gewogen. Die Abhängigkeit des Ertrags y (kg) von der Düngermenge x (ml) lässt sich beschreiben als

 

wobei natürlich kein Mensch diese Gerade kennt, wir können nur einzelne Versuche machen. In der Tabelle 1 sind für die Düngergaben 40, 50, ... ,120 ml für jeweils 8 Pflanzen die resultierenden Erträge aufgeführt. Man sieht, dass die Erträge um   schwanken, was natürlich an der Störgröße   liegt.

Betrachten wir die Störgröße bei einer Düngermenge von x3 = 60 ml. Es wurden hier die Erträge von 150 Peperoni-Pflanzen erfasst. Wenn man die Realisationen der Störgröße u3 in einem Dotplot abträgt (Grafik 2), erkennt man, dass die Werte normalverteilt sein könnten. Zu x3 gehört also eine eigene Wahrscheinlichkeitsverteilung der Störgröße, ebenso zu x1, x2 usw. In der Grafik 3 sind diese verschiedenen Verteilungen der u exemplarisch angedeutet.

 
Grafik 2: Dotplot von 150 Realisationen der Störgröße bei x = 60
 
Grafik 3: Verteilung der Störgrößen auf der Regressionsgeraden

Axiome des linearen Regressionsmodells

Damit dieses Verfahren sinnvolle Ergebnisse liefert, wurden für das Lineare Regressionsmodell bestimmte verteilungstheoretische Annahmen getroffen. Wir gehen aus von der Beziehung

 

und definieren die Störgröße ui als Zufallsvariable. Die Annahmen des linearen Regressionsmodell sind

  1. Alle ui haben den Erwartungswert Null:  , (i = 1, ..., n) .
  2. Alle ui haben die gleiche Varianz (Homoskedastizität):   (i,j = 1, ... , n, i ≠ j) .
  3. Die ui sind sämtlich stochastisch unabhängig voneinander.

Der Sinn dieser Axiome wird weiter unten erläutert.

Minimierung

Die herkömmliche Methode, die sich auf der Basis der Axiome ergibt, ist die Minimum-Quadrat-Methode oder Methode der kleinsten Quadrate. Man minimiert also die summierten Quadrate der Residuen,

 

bezüglich a und b.

Wir multiplizieren die Klammer aus:

 

Wir minimieren durch Ableiten

 
 

und Nullsetzen, was ein wenig optisch geschönt die Normalgleichungen

 
 

ergibt.


Wir erhalten die gesuchten Regressionskoeffizienten als die Lösungen

 

und

 

wobei   der Mittelwert, also der Durchschnitt der x-Daten ist, y entsprechend. Wegen des Verschiebungssatzes kann man b auch darstellen als

 

oder, nach Erweiterung des Bruchs durch 1/(n-1),

 

mit sxy als Kovarianz zwischen den xiund yi und sx2 als Varianz der xi. Man nennt diese Schätzungen auch Kleinste-Quadrate-Schätzer, KQ- oder OLS-Schätzer.

Wir wollen nun für das obige Sektbeispiel die Regressionskoeffizienten bestimmen:

Preis einer
Flasche

verkaufte
Menge

xi- x

yi- y

 

 

 

 

xi

yi

x*

y*

x*y*

x*x*

y*y*

20

0

5

-5

-25

25

25

0,09

16

3

1

-2

-2

1

4

4,02

15

7

0

2

0

0

4

5,00

16

4

1

-1

-1

1

1

4,02

13

6

-2

1

-2

4

1

6,96

10

10

-5

5

-25

25

25

9,91

90

30

0

0

-55

56

60

30,00

Wir berechnen in dem Beispiel zunächst die arithmetischen Mittel als die Koordinaten des Schwerpunktes der   Messwerte bzw. der Punktwolke.

  entsprechend : ,

und dann die Regressionskoeffizienten

  als die Steigung der Regressionsgeraden
 
Regressionsgerade a+bx

und

 

Die geschätzte Regressionsgerade lautet  , so dass man vermuten kann, dass bei jedem Euro mehr der Absatz im Durchschnitt um ca. 1 Flasche sinkt.

Für die gegebenen x-Werte erhalten wir als Schätzungen ŷ

 


Für die beobachteten Absatzwerte y bleibt das Residuum ri übrig:

 



Schätzung der Varianzen

Die Stichprobenvarianz der Residuen berechnet sich als:

 

Man schätzt damit die Varianz der Störgröße u (eigentlich U!).

Gesetzmäßigkeiten

Bezüglich der Zielvariablen und der Residuen gilt:

  •   und damit  .
Die Residuen sind im Mittel Null, sie enthalten also keine Information mehr.
  •  
Die unabhängige Variable x und die Residuen sind orthogonal. Geometrisch bedeutet das, dass sie senkrecht aufeinander stehen. Sie sind daher unkorreliert. Die Residuen enthalten also keinerlei Information mehr, die in x steckt. Die Informationen aus x sind alle in a + bx. Nur, was von x nicht mehr erklärt werden kann, bleibt als Rest in d.
  •  
Das arithmetische Mittel der ŷ ist gleich dem Mittel von y.

Vorteile der Minimum-Quadrat-Methode:

  • Positive und negative Abweichungen heben sich bei Summenbildung nicht auf.
  • Große Residuen werden im Verhältnis stärker gewichtet als kleine.
  • Der Durchschnitt der Residuen ist Null.
  • Die Regressionskoeffizienten können mit einer Formel berechnet werden.

Nachteil der Minimum-Quadrat-Methode:

 
Ein Ausreißer bei x: Die Gerade wird nach oben gezogen
Nicht resistent gegenüber Ausreißern in den Daten.

Sekt-Beispiel:

Wegen eines Erhebungsfehlers wurde für x6 statt 10 der Wert 70 eingetippt. Die neue Regressionsgerade ergibt sich als ŷ = 2,51 + 0,10x. Dieser Ausreißer beeinträchtigt das Ergebnis so sehr, dass sogar das Vorzeichen der Steigung umgedreht wird. Eigentlich sollte die Regressionsgerade durch die Punktwolke auf der linken Seite der Grafik führen und fallend sein. Der Ausreißer hebelt die Gerade regelrecht aus: Man spricht von einem High-Leverage-Value, also einem Wert mit großer Hebelkraft. Wir erkennen sofort, dass dieser Ausreißer die Analyse völlig wertlos gemacht hat. In dem speziellen Sachzusammenhang könnte man sogar einen fatalen Fehlschluss machen: Bei Luxusgütern sind steigende Preis-Absatz-Funktionen denkbar, weil ein hoher Preis statusfördernd ist. Man könnte also fälschlicherweise annehmen, dass dieser Zusammenhang auch hier gilt. Man würde also einen sehr hohen Preis festlegen und am Markt scheitern.

Bestimmtheitsmaß

Ein Kriterium für die Beurteilung der Güte einer Regressionsschätzung ist das Bestimmtheitsmaß. Die Begründung für dieses Maß leitet sich aus der sog. Streuungszerlegung her. Die Gesamtvarianz von y läßt sich, ausgehend von der Beziehung

 

zerlegen in die durch a + bx erklärte Varianz von y und die nicht erklärte Varianz:

 

Einige Umformungen ergeben das Bestimmtheitsmaß

 

als Anteil der erklärten Streuung an der Gesamtstreuung von y. Es ist

 

wobei ersichlich ist, daß r2 das Quadrat des Korrelationskoeffizienten von x und y darstellt. Mit dem Verschiebungssatz erhalten wir

 

Es gilt:

 

Je näher r2 bei 1 ist, desto größer ist der Anteil der erklärten Streuung, desto besser wird y durch x erklärt. r2 = 0 bedeutet, dass x und y unkorreliert sind, und r2 = 1, dass x und y eine Gerade bilden.

Die Berechnung der Varianz der Residuen von Hand mit der Formel

 

ist aufwendig, weil zuerst die Residuen ermittelt werden müssen. Eine vereinfachte Form leitet sich aus der Beziehung

 

her. Es ist dann nämlich

 

Sekt-Beispiel

Da hier die arithmetischen Durchschnitte glatte Werte sind, wollen wir das Bestimmtheitsmaß mit der Formel

 

ermitteln. Die Quadratsummen wurden oben in der Tabelle bereits ausgerechnet. Wir erhalten

 

Man könnte also sagen, dass etwa 90% der Information in y von x stammen, die restlichen 10% haben andere Ursachen.

Anforderungen an das Regressionsmodell

Das Regressionsmodell kann nur optimale Ergebnisse liefern, wenn bestimmte Anforderungen erfüllt sind. Diese Anforderungen lassen sich aus dem Axiomensystem des klassischen linearen Regressionsmodells herleiten:

Die Residuen sollen nur rein zufällig streuen und keinerlei Systematik mehr enthalten, d.h. die Zielvariable y soll durch x vollständig erklärt werden. Systematik in den Residuen deutet daraufhin, daß das Modell möglicherweise falsch bestimmt wurde, d.h. es liegt ein Spezifikationsfehler vor.

Als bestes Mittel zur Überprüfung dieser Modellvoraussetzungen wird das (x;y)-Streudiagramm angesehen, das schnell einen optischen Eindruck von der Verteilung der Störgröße vermittelt.

 
Korrelierte Residuen:
In den Residuen ist noch ein Schwingungskomponente, die man ev. mit dem Ansatz y = a + b1x + b2sin(x) einbinden könnte.
 
Verschiedene Varianz der Residuen:
Die linken Residuen schwanken schwächer als die rechten. Vermutlich sind zwei verschiedene Populationen gemischt worden.

Prognose

Ein Ziel der Regressionsanalyse ist die Prognose ŷ0, d.h. man fragt danach, welchen Wert y annimmt, wenn ein bestimmtes x0 vorgegeben ist:

 

Sekt-Beispiel: Wieviel Flaschen Sekt werden im Durchschnitt verkauft, wenn der Preis auf x0 = 11 Euros festgelegt wird? Es ergibt sich der Prognosewert

 

Das heißt jetzt aber nicht, dass in jedem Laden genau 8,93 Flaschen verkauft werden, was auch schwierig sein dürfte, sondern dass in einem Laden durchschnittlich 8,93 Flaschen abgesetzt werden.

Je weiter x0 vom „Zentrum“ x der Daten entfernt ist, desto unverläßlicher werden die Prognosen - ihre Varianz wird immer größer. Deshalb sollte man sich bei einer Prognose nicht zu weit von den Daten entfernen.


Multiple Regression

Beispiel mit demografischen Daten ausgewählter Länder:

Row i Country popgrow birth mort fertil explife infmort
y x1 x2 x3 x4 x5
1 Austria 0,14 8,90 9,56 1,35 78,87 4,68
2 Burkina Faso 2,57 44,46 18,79 6,28 44,20 98,67
3 Burma 0,47 18,64 12,16 2,08 56,01 68,78
4 Chile 1,01 15,77 5,71 2,06 76,38 9,05
5 Costa Rica 1,52 18,99 4,32 2,33 76,63 10,26
6 Iraq 2,74 33,09 5,66 4,40 68,26 52,71
7 Norway 0,41 11,89 9,51 1,78 79,25 3,73
8 Portugal 0,41 10,90 10,37 1,46 77,35 5,13
9 Singapore 1,71 9,63 4,05 1,04 81,53 2,28
10 United Kingdom 0,29 10,88 10,19 1,66 78,27 5,22

Erklärung der Variablen:

birth Geburtenrate (Zahl der Geburten pro 1000 Einwohner)
explife Lebenserwartung (Mittlere Zahl der Lebensjahre von Geburt an)
fertil Fertilität (Durchschn. Kinderzahl pro gebärfähiger Frau)
infmort Kindersterblichkeit (Zahl der verstorbenen Kinder unter einem Jahr pro 1000 Lebendgeburten)
mort Sterblichkeit (Zahl der Verstorbenen pro 1000 Einwohner)
popgrow Wachstumsrate der Bevölkerung (prozentuale Änderung der Einwohnerzahl gegenüber dem Vorjahr)

Es wurden die demografischen Daten für n=10 zufällig ausgewählte Länder erhoben (Quelle: Worldfact-Book der CIA)

Es soll nun das Bevölkerungswachstum popgrow erklärt werden. Es wird zunächst als erklärende Variable die Geburtenrate birth versucht:

  bzw.  

Wir erhalten die Regressionsgerade

 

mit einem Bestimmtheitsmaß von 66,4%. Die Information in popgrow wird also zu 66% durch birth erklärt, die restlichen 34% entstammen anderen Einflussgrößen. Wir machen einen zweiten Versuch und verwenden die Sterblichkeit als erklärende Variable:

 .

Hier ergibt sich als Regressionsgerade

 

mit einem Bestimmtheitsmaß von ca. 0%. Dieses Ergebnis ist enttäuschend und auch das vorherige war nicht gerade berauschend. Jetzt versuchen wir mal was Innovatives: Wir machen einen Regressionsansatz mit zwei unabhängigen Variablen

  bzw.  .

Gesucht ist also die geschätzte Regressionsebene

 .

Wir erhalten das Gleichungssystem

 
 
 
 
 

Wir wollen nun die einzelnen Daten zu Matrizen zusammenfassen. Wir erhalten die (10x3)-Datenmatrix

 

und die Vektoren

    und  

Mit diesen Matrizen können wir das Gleichungssystem in Matrixschreibweise darstellen als

 

wobei Vektoren und Matrizen unterstrichen sind.

Auch hier wird die Quadratsumme der Residuen minimiert, um die Regressionskoeffizienten zu erhalten. Diese berechnen sich mit der Formel

 .

Wir erhalten den Vektor der Regressionskoeffizienten

 

also

  bzw.
 .

Das Bestimmtheitmaß ist hier 88,8%. Die Anpassung hat sich beträchtlich verbessert. Hier scheint das Zusammenwirken der beiden Regressoren mehr bewirkt zu haben als die „Summe der Teile“.

Die Wurzel aus dem Bestimmtheitsmaß ergibt den multiplen Korrelationskoeffizienten r = 0,942. Der multiple Korrelationskoeffizient kann nur zwischen 0 und 1 liegen, wobei 1 wieder vollständige Korrelation bedeutet.

Die Regressionskoeffizienten 0,089 und 0,117 sind die partiellen Ableitungen der Regressionsebene. Man könnte die Koeffizienten so interpretieren: Steigt bei konstanter Sterblichkeit die Geburtenrate um einen Punkt, erhöht sich das Bevölkerungswachstum um ca. 0,1 Prozent. Steigt dagegen bei konstanter Geburtenrate die Sterblichkeit um einen Punkt, sinkt das Bevölkerungswachstum um ca. einen Punkt. Eine simultane Analyse der Regressionsebene bezüglich beider Regressionskoeffizienten ist kompliziert und meistens auch nicht sinnvoll interpretierbar. Die Analyse eines Regressionskoeffizienten bei Konstanthaltung der übrigen Regressoren nennt man eine Ceteris-Paribus-Analyse.

In der Regel ist die Berechnung der Regressionskoeffizienten im multiplen linearen Regressionsmodell so aufwendig, daß Computer eingesetzt werden müssen. Spezielle statistische Datenbanksysteme wie SPSS,SAS oder Minitab ermöglichen eine umfassende Regressionsanalyse.

Die Vor- und Nachteile der Minimum-Quadrat-Methode sind dieselben wie bei der Einfachregression: Es sei x8,2 = 100 statt 10,9. Man erhält

 

mit einem Bestimmtheitsmaß von 0,7%.


LiteraturBearbeiten

  • Peter Schönfeld: Methoden der Ökonometrie, Berlin/Frankfurt, 1969
  • Norman R. Draper und Harry Smith: Applied Regression Analysis, John Wiley & Sons Inc. 1998, ISBN 0471170828