Mathematik: Wahrscheinlichkeitstheorie: DW: K7: Kovarianz und Korrelation
← zurück - zum Inhaltsverzeichnis - weiter →
K7: Kovarianz und Korrelation
Diskrete Wahrscheinlichkeitsrechnung
7.4 Kovarianz und Korrelation
BearbeitenBei simultanen Verteilungen ist es von großer Bedeutung den Zusammenhang der Zufallsvariablen zu studieren. Dazu brauchen wir ein Maß das den Zusammenhang kennzeichnet. Was wir unter Zusammenhang verstehen, werden wir in einem Beispiel verdeutlichen.
Beispiel 1 (zweimal Würfeln (Fortsetzung))
BearbeitenDie simultane Wahrscheinlichkeitsfunktion pZ,M von Z und M wird gegeben in der nächste Tabelle.
2 3 4 5 6 7 8 9 10 11 12 1 1/36 1/36 2 2/36 1/36 3/36 3 2/36 2/36 1/36 5/36 4 2/36 2/36 2/36 1/36 7/36 5 2/36 2/36 2/36 2/36 1/36 9/36 6 2/36 2/36 2/36 2/36 2/36 1/36 11/36 1/36 2/36 3/36 4/36 5/36 6/36 5/36 4/36 3/36 2/36 1/36 36/36
Daraus können wir ablesen dass kleine Werte für M einher gehen mit kleinen Werten für Z. Wenn M=1, kann nur Z=2 vorkommen, und wenn M=2, sind für Z nur die Werte 3 und 4 möglich. Große Werte von M gehen einher mit großen Werten von Z: wenn M=6, kann Z die Werte 7 bis 12 annehmen. Es gibt zwar keine eindeutige Beziehung zwischen M und Z, aber je größer M ist, desto größer sind die Werte die für Z im Betracht kommen.
Weil die Lage der Verteilung unwichtig ist für den Zusammenhang der Zufallsvariablen, betrachten wir alles relativ hinsichtlich des Zentrums der simultane Verteilung. Wir suchen der Zusammenhang zwischen die Abweichungen X–EX und Y–EY der beiden Zufallsvariablen X und Y hinsichtlich ihren Erwartungswerte. Wenn kleine Werte von X–EX überwiegend einher gehen mit kleinen Werten von Y–EY und gleichfalls die große Werte, reden wir von einer positiven Zusammenhang. Das Produkt der Abweichungen, (X–EX)(Y–EY), wird dann überwiegend positiv sein. Gehen kleine Werte der eine Zufallsvariable überwiegend einher mit großen Werten der andere Zufallsvariable, dann reden wir von einer negativen Zusammenhang und wird (X–EX)(Y–EY) überwiegend negativ sein. Die Erwartung E(X–EX)(Y–EY) dieses Produkts, Kovarianz genannt, wird also bei einer positiven Zusammenhang positiv sein, und bei einer negativen Zusammenhang negativ, und charakterisiert damit die Art der Zusammenhang.
Definition 7.4.1
BearbeitenUnter die Kovarianz zweier Zufallsvariablen X und Y, verstehen wir
- Cov(X,Y) = E((X–EX)(Y–EY)).
Beispiel 2 (zweimal Würfeln (Fortsetzung))
BearbeitenWir berechnen die Kovarianz von M und Z.
-
- .
Wie wir erwarten ist die Zusammenhang positiv.
Auch für die Berechnung von Cov(X,Y) gibt es ein Verschiebungssatz.
Satz 7.4.1 (Verschiebungssatz)
BearbeitenFür die Kovarianz zweier Zufallsvariablen X und Y gilt:
- Cov(X,Y) = E(XY) – EX·EY.
Beispiel 3 (zweimal Würfeln (Fortsetzung))
BearbeitenWir berechnen die Kovarianz von M und Z mit Anwendung des Verschiebungssatzes. Dazu berechnen wir zuerst:
Dann folgt:
- .
Übrigens können wir EMZ auch berechnen mit Hilfe vorheriger Berechnungen:
Die benötigte Berechnungen stehen in der nächste Tabelle.
1 2 3 4 5 6 Total 1/36 3/36 5/36 7/36 9/36 11/36 36/36 2 10/3 24/5 44/7 70/9 102/11 2/36 20/36 72/36 176/36 350/36 612/36 1232/36
Einige nahe liegende Eigenschaften der Kovarianz zeigen wir im nächsten Satz.
Satz 7.4.2 (Eigenschaften der Kovarianz)
BearbeitenEs seien und zwei Zufallvariablen mit einer simultanen Verteilung, und und gleichfalls Dann gilt:
- (a)
- (b)
- (c)
- (d) ) für alle
- (e) wenn und unabhängig sind,
- Beweis
Wir beweisen nur e. Wenn und unabhängig sind, ist . Mit Anwendung des Verschiebungssatzes folgt direkt dass .
Beispiel 4 (zweimal Würfeln (Fortsetzung))
BearbeitenWir berechnen die Kovarianz von M und X + Y (= Z).
- .
Nun ist
- ,
Daraus folgt:
Auch auf diese Weise finden wir:
Vergleiche dies mit dem Beispiel 2.
Die letzte Aussage des Satzes 2 verdient noch unsere Aufmerksamkeit. Es scheint selbstverständlich zu sein dass Cov(X,Y) = 0, falls X und Y unabhängig sind, und es deshalb keine Zusammenhang gibt. Umgekehrt aber gilt nicht dass wir aus dem Fakt dass Cov(X,Y) = 0, konkludieren dürfen dass X und Y unabhängig sind. Die Kovarianz ist namentlich nur ein Maß für "lineare Zusammenhang" zwischen zwei Zufallsvariablen. Wenn also Cov(X,Y) = 0, können wir nur konkludieren dass es keine lineare Zusammenhang gibt zwischen X und Y. Sie können trotzdem auf eine andere Weise zusammenhängen und doch abhängig sein, wie im nächsten Beispiel gezeigt wird.
Beispiel 5
BearbeitenEs seien X und Y so bestimmt dass P(X=0 und Y=±1) = P(X=±1 und Y=0) = 1/4. Dann ist EXY = EX = EY = 0, weshalb Cov(X,Y) = 0. X und Y sind aber abhängig, denn P(X=1 und Y=1) = 0 ≠ P(X=1)P(Y=1) = 1/16.
Mit Hilfe der Kovarianz können wir einen Ausdruck finden für die Varianz der Summe von n Zufallsvariablen.
Satz 7.4.3
BearbeitenEs seien die n Zufallsvariablen X1,X2,...,Xn sind simultan verteilt und σ(Xi) < ∞. Dann ist:
-
- .
Insbesondere gilt also für zwei Zufallsvariablen X und Y:
und folglich auch:
Wenn also X und Y unabhängig sind, ist Cov(X,Y) = 0, und gilt:
Die Varianz der Summe und der Differenz ist dann die Summe der Varianzen.
Satz 7.4.4
BearbeitenWenn die n Zufallsvariablen X1,X2,...,Xn paarweise unabhängig oder unabhängig sind, und σ(Xi) < ∞, gilt:
Beispiel 6 (zweimal Würfeln (Fortsetzung))
BearbeitenWir berechnen die Varianz von Z = X + Y. Weil X und Y unabhängig sind und identisch verteilt, gilt:
- ,
wie wir schon vorher berechneten.
Mit den obigen Beziehungen können wir auf einfache Weise die Varianz der Binomialverteilung und der hypergeometrische Verteilung bestimmen.
Beispiel 7 (Varianz der Binomialverteilung)
BearbeitenEs sei X B(n,p)-Verteilt. Betrachte n Bernoulli-Versuchen Xi mit Erfolgswahrscheinlichkeit p, d.h. P(Xi= 1) = 1 – P(Xi= 0) = p. Wir stellen Y = ∑ Xi, dann haben X und Y dieselbe Verteilung und also auch dieselbe Varianz. Wir finden dann:
Beispiel 8 (Varianz der hypergeometrische Verteilung)
BearbeitenEs sei X hypergeometrisch Verteilt mit Parametern M, N und n. Wir betrachten eine aselekte Stichprobe von Umfang n ohne Zurücklegung aus einer Urne mit M roten und N-M weißen Kugeln. Wir definieren Xi als 1 wenn die i. Ziehung eine rote Kugel aufweist und 0 im Falle einer weißen. Jede der Zufallsvariablen (Xi) ist wieder eine Alternative mit Parameter p = M/N. Nenne wieder:
dann haben X und Y dieselbe Verteilung und also dieselbe Varianz. Folglich ist:
Darin ist
für alle i und j, da die simultane Verteilung von Xi und Xj für jede i und j dieselbe ist. Wir können c direkt bestimmen durch:
- .
Folglich istL
Wir können c auch bestimmen damit wir bedenken dass c nicht abhängig ist von der Stichprobeumfang n. Dann ist für n = N, also wenn wir alle Kugeln ziehen:
Falls Cov(X,Y) = 0, nennen wir X und Y unkorreliert. Der Begriff hängt zusammen mit dem im nächsten zu besprechen Begriff Korrelation.
Definition 7.4.2
BearbeitenWir nennen die Zufallsvariablen X1,X2,...,Xn unkorreliert, wenn Cov(Xi, Xj) = 0 für jede zwei Xi und Xj.
Das Vorzeichen der Kovarianz zeigt uns, wie wir gesehen haben, die "Art" der lineare Zusammenhang zwischen zwei Zufallsvariablen. Die Größe der Kovarianz ist ein Maß für die "Stärke" der lineare Zusammenhang, und zwar in dem Sinne, dass je mehr die Zusammenhang eine lineare Beziehung annähert, desto größer, absolut gesehen, der Wert der Kovarianz ist. Dabei müssen wir bemerken dass wir die absolute Größe der Kovarianz betrachten sollen in Beziehung zu der Streuungen. Die Kovarianz E(X-EX)(Y-EY) wird ja nicht nur bestimmt durch die Zusammenhang, aber auch durch die Größe der Abweichungen, also durch die Streuungen in der Verteilungen von X und Y. Wenn ein oder beide Zufallsvariablen in eine andere Skalierung gemessen wird, ändert sich auch die Streuung gemessen durch die Standardabweichung proportional mit dem Skalierungsfaktor und gleichfalls die Kovarianz, wie Satz 2 zeigte. Wir können die Kovarianz also standardisieren damit wir sie dividieren durch die Standardabweichungen der beiden Zufallsvariablen. Diese standardisierte Form nennen wir Korrelationskoeffizient.
Definition 7.4.3
BearbeitenUnter der Korrelationskoeffizient ρ(X,Y) der Zufallsvariablen X und Y verstehen wir
- ,
vorausgesetzt σ(X) und σ(Y) existieren beide.
Beispiel 9 (zweimal Würfeln (Fortsetzung))
BearbeitenWir berechnen den Korrelationskoeffizienten von M und Z:
M und Z sind also ziemlich stark positiv korreliert; das ist auch verständlich, denn kleine Werte für M gehen einher mit kleinen Werten für Z, während große Werte für M mit großen Werten für Z einhergehen.
Der Korrelationskoeffizient ρ(X,Y) kann nur Werte aufweisen zwischen -1 und 1 (Grenze inklusive). Die Größe ist ein direktes Maß für den linearen Zusammenhang zwischen X und Y.
Im nächsten Satz listen wir einige Eigenschaften auf.
Satz 7.4.5 (Eigenschaften des Korrelationskoeffizienten)
BearbeitenEs seien X und Y simultan verteilt, dann gilt:
- (a) ρ(X,Y) = ρ(Y,X)
- (b) ρ(aX+b,Y) = sgn(a)·ρ(X,Y), für alle a,b ∈ R, a≠0. (hierin ist sgn(a) = 1 wenn a > 0 und sgn(a) = -1 wenn a < 0);
- (c) |ρ(X,Y)| ≤ 1
- (d) |ρ(X,Y)| = 1, dann und nur dann wenn X und Y linear zusammenhängen, d.h. wenn P(Y=aX+b) = 1, für bestimmte a≠0 und b. Das Vorzeichen von ρ gleicht dem Vorzeichen von a.
- (e) wenn X und Y unabhängig sind, ist ρ(X,Y) = 0.
- Beweis
Wir beweisen nur c und d. Sie folgern aus der Beziehung:
- .
Wenn Gleichheit gilt, ist entartet. Wenn also ρ(X,Y) = ±1, ist für eine bestimmte b
- .
Für also fast alle Ergebnisse s (außerhalb einem Ereignis mit Wahrscheinlichkeit 0) hängen X und Y linear zusammen.
Beispiel 10 (Die hypergeometrische Verteilung ((Fortsetzung))
BearbeitenWir berechnen den Korrelationskoeffizient zweier Variablen:
- .
Hieraus ergibt sich, dass X1 und X2 negativ zusammenhängen. Das ist auch verständlich, denn wenn die erste Kugel rot ist (X1= 1), ist die bedingte Wahrscheinlichkeit, dass auch die zweite Kugel rot ist(X2= 1) kleiner als wenn die erste Kugel weiß ist (X2= 0). Auch nimmt die Abhängigkeit mit wachsendem N ab, denn mit wachsendem N verliert der Unterschied zwischen Stichproben mit und ohne Zurücklegen an Bedeutung.
Beispiel 11 (Multinomialverteilung ((Fortsetzung))
BearbeitenWir betrachten wieder drei Zufallvariablen X, Y und Z, und berechnen die Kovarianz von X und Y. Weil X und Y beide binomialverteilt sind mit Parametern n und p1, beziehungsweise n und p2, wissen wir schon, dass EX = np1 und EY = np2. Wir leiten her:
- .
Also ist:
- .
und
- .