Statistik: Prüfung des Zusammenhangs zweier Merkmale

Stochastische Unabhängigkeit

Die Beobachtungen zweier Merkmale X und Y liegen als gemeinsame klassierte Häufigkeitsverteilung vor mit n und m Kategorien und den dazugehörigen gemeinsamen Häufigkeiten nij (i = 1, …,n; j = 1, …,m) vor. Zur Prüfung der Hypothese H0: „X und Y sind stochastisch unabhängig“ verwendet man die Prüfgröße

 

Es soll jedes   sein. Falls diese Forderung nicht gegeben ist, müssen so viele Zeilen und/oder Spalten zusammengefasst werden, bis die Vorgabe erfüllt ist.

Die Hypothese, dass X und Y stochastisch unabhängig sind, wird abgelehnt, wenn χ2 > χ2(1 - α; (m – 1)(n - 1)) ist, als (1-α)-Quantil der χ2-Verteilung mit (m-1)(n-1) Freiheitsgraden.

Bemerkung: Dieser Test kann auch für die Prüfung der stochastischen Unabhängigkeit zweier Ereignisse verwendet werden. Man spricht hier von einem Vierfelder-Test.

Korrelation

Normalverteilung beider Merkmale

Die Merkmale X und Y sind normalverteilt. Es wird die spezielle Nullhypothese H0: ρxy = 0 geprüft. Man schätzt den Korrelationskoeffizienten ρ mit dem Korrelationskoeffizienten r nach Bravais-Pearson und verwendet die Prüfgröße

 

H0: ρxy = 0 wird abgelehnt, falls t < - t(1-α/2; n - 2) oder t > t(1-α/2; n - 2) ist.

Wird H0 abgelehnt, geht man davon aus, dass X und Y korreliert sind. Sie sind dann auch stochastisch abhängig, so dass dieser Test im Ablehnungsfall auch die stochastische Unabhängigkeit erfasst. Bei Nichtablehnung können die Merkmale trotzdem abhängig sein, denn der Korrelationskoeffizient misst bekanntlich nur die lineare Abhängigkeit.

Wird H0: ρxy = ρ0 ≠ 0 geprüft, hat r eine sog. nichtzentrale Verteilung, die nicht mehr ohne weiteres berechnet werden kann und nur noch näherungsweise mit der sog. Fisherschen Transformation angebbar ist.

Unbekannte Verteilung beider Merkmale

Die Merkmale X und Y sind beliebig verteilt. Es wird die spezielle Nullhypothese H0: ρxy = 0 geprüft. Man schätzt den Korrelationskoeffizienten ρ mit dem Rangkorrelationskoeffizienten nach Spearman-Pearson rSP.

Für n > 10 verwendet man die Prüfgröße

 

H0: ρxy = 0 wird abgelehnt, falls t < - t(1-α/2; n - 2) oder t > t(1-α/2; n - 2) ist.

Parameter der linearen Regression

Ausgegangen wird von der unbekannten Regressionsgeraden

 

und der Schätzung

 .

Die Störgröße u ist normalverteilt:

 

Die Varianz der Störgröße σ2 wird geschätzt mit

 

Es ist auch

 


Steigungskoeffizent β

β wird geschätzt durch b. Unter H0 ist  .

Verwendet wird die Prüfgröße

 

die unter H0 t-verteilt ist mit n-2 Freiheitsgraden.

  • H0: β = β0 wird abgelehnt, falls t < - t(1-α/2; n - 2) oder t > t(1-α/2; n - 2) ist.
  • H0: β ≤ β0 wird abgelehnt, falls t > t(1-α/2; n - 2) ist.
  • H0: β ≥ β0 wird abgelehnt, falls t < - t(1-α/2; n - 2) ist.

In der Praxis wird meistens H0: β = 0 getestet. Wird die Hypothese nicht abgelehnt, scheint x unerheblich für die Erklärung von y zu sein.

Absolutglied α

α wird geschätzt durch a. Unter H0 ist

 

Für den Test verwendet man die Prüfgröße

 ,

die unter H0 t-verteilt ist mit n-2 Freiheitsgraden.

  • H0: α = α0 wird abgelehnt, falls t < - t(1-α/2; n - 2) oder t > t(1-α/2; n - 2) ist.
  • H0: α ≤ α0 wird abgelehnt, falls t > t(1-α/2; n - 2) ist.
  • H0: α ≥ α0 wird abgelehnt, falls t < - t(1-α/2; n - 2) ist.

In der Praxis wird meistens H0: α = 0 getestet. Wird die Hypothese nicht abgelehnt, geht die wahre Regressionsgerade möglicherweise durch den Nullpunkt des Koordinatensystems.