Formelsammlung Statistik
Uli Schell
Wikibooks
P
(
A
¯
∪
B
¯
)
=
P
(
A
∩
B
¯
)
{\displaystyle P({\bar {A}}\cup {\bar {B}})=P({\overline {A\cap B}})}
und
P
(
A
¯
∩
B
¯
)
=
P
(
A
∪
B
¯
)
{\displaystyle P({\bar {A}}\cap {\bar {B}})=P({\overline {A\cup B}})}
n
!
=
1
⋅
2
⋅
.
.
.
⋅
(
n
−
1
)
⋅
n
{\displaystyle n!=1\cdot 2\cdot ...\cdot (n-1)\cdot n}
0
!
=
1
{\displaystyle 0!=1}
(
n
k
)
=
n
!
k
!
(
n
−
k
)
!
,
k
,
n
∈
N
,
k
,
n
≥
0.
{\displaystyle {n \choose k}={\frac {n!}{k!(n-k)!}},\quad k,n\in N,\quad k,n\geq 0.}
(
n
0
)
=
1.
{\displaystyle {n \choose 0}=1.}
Anzahl der möglichen Stichproben vom Umfang n aus einer Grundgesamtheit vom Umfang N:
Ohne Zurücklegen
Mit Zurücklegen
Mit
N
!
(
N
−
n
)
!
{\displaystyle {\frac {N!}{(N-n)!}}}
N
n
{\displaystyle N^{n}}
Ohne Berücksichtigung der Reihenfolge
(
N
n
)
{\displaystyle {N \choose n}}
(
N
+
n
−
1
n
)
{\displaystyle {N+n-1 \choose n}}
(Symmetrieprinzip oder Prinzip nach LAPLACE )
Jedes Ergebnis A aus der Ergebnismenge Ω sei gleich häufig. |A| ist die Zahl der Ergebnisse,
die durch A belegt werden (Anzahl der günstigen Ergebnisse), |Ω| ist die Zahl aller möglichen Ergebnisse. Es ist
P
(
A
)
=
|
A
|
|
Ω
|
.
{\displaystyle P(A)={\frac {|A|}{|\Omega |}}.}
Axiome der Wahrscheinlichkeiten (Kolmogoroff) :
Gegeben sind zwei Ereignisse A,B ⊂ Ω.
P
(
A
)
≥
0
.
{\displaystyle P(A)\geq 0\;.}
Nichtnegativität
P
(
Ω
)
=
1
.
{\displaystyle P(\Omega )=1\;.}
Normiertheit
P
(
A
∪
B
)
=
P
(
A
)
+
P
(
B
)
,
{\displaystyle P(A\cup B)=P(A)+P(B)\;,}
falls A und B disjunkt sind.
Für zwei Ereignisse A, B aus Ω gilt :
P
(
A
∪
B
)
=
P
(
A
)
+
P
(
B
)
−
P
(
A
∩
B
)
.
{\displaystyle P(A\cup B)=P(A)+P(B)-P(A\cap B).}
Für drei Ereignisse A, B, C aus Ω gilt analog :
P
(
A
∪
B
∪
C
)
=
P
(
A
)
+
P
(
B
)
+
P
(
C
)
−
P
(
A
∩
B
)
−
P
(
A
∩
C
)
−
P
(
B
∩
C
)
+
P
(
A
∩
B
∩
C
)
.
{\displaystyle {\begin{array}{cl}P(A\cup B\cup C)=&P(A)+P(B)+P(C)-P(A\cap B)\\&-P(A\cap C)-P(B\cap C)+P(A\cap B\cap C).\end{array}}}
Falls die Ereignisse disjunkt sind, gilt
P
(
A
∪
B
)
=
P
(
A
)
+
P
(
B
)
.
{\displaystyle P(A\cup B)=P(A)+P(B).}
P
(
A
∪
B
∪
C
)
=
P
(
A
)
+
P
(
B
)
+
P
(
C
)
.
{\displaystyle P(A\cup B\cup C)=P(A)+P(B)+P(C).}
P
(
A
|
B
)
=
P
(
A
∩
B
)
P
(
B
)
{\displaystyle P(A|B)={\frac {P(A\cap B)}{P(B)}}}
Ein Ereignis A ist unabhängig von B, wenn
P
(
A
|
B
)
=
P
(
A
|
B
¯
)
=
P
(
A
)
{\displaystyle P(A|B)=P(A|{\overline {B}})=P(A)}
Sei A1 ...Ak eine disjunkte Zerlegung von Ω. Dann gilt für B ⊂ Ω:
P
(
B
)
=
∑
i
=
1
k
P
(
B
|
A
i
)
⋅
P
(
A
i
)
{\displaystyle P(B)=\sum _{i=1}^{k}P(B|A_{i})\cdot P(A_{i})}
.
Für zwei Ereignisse
A
{\displaystyle A}
und
B
{\displaystyle B}
mit
P
(
B
)
>
0
{\displaystyle P(B)>0}
lässt sich die Wahrscheinlichkeit von
A
{\displaystyle A}
unter der Bedingung, dass
B
{\displaystyle B}
eingetreten ist, angeben durch die Wahrscheinlichkeit von
B
{\displaystyle B}
unter der Bedingung, dass
A
{\displaystyle A}
eingetreten ist:
P
(
A
∣
B
)
=
P
(
B
∣
A
)
⋅
P
(
A
)
P
(
B
)
{\displaystyle P(A\mid B)\;=\;{\frac {P(B\mid A)\cdot P(A)}{P(B)}}}
.
Hierbei ist
P
(
A
∣
B
)
{\displaystyle P(A\mid B)}
die (bedingte) Wahrscheinlichkeit des Ereignisses
A
{\displaystyle A}
unter der Bedingung, dass
B
{\displaystyle B}
eingetreten ist,
P
(
B
∣
A
)
{\displaystyle P(B\mid A)}
die (bedingte) Wahrscheinlichkeit des Ereignisses
B
{\displaystyle B}
unter der Bedingung, dass
A
{\displaystyle A}
eingetreten ist,
P
(
A
)
{\displaystyle P(A)}
die A-priori-Wahrscheinlichkeit des Ereignisses
A
{\displaystyle A}
und
P
(
B
)
{\displaystyle P(B)}
die A-priori-Wahrscheinlichkeit des Ereignisses
B
{\displaystyle B}
.
Endlich viele Ereignisse :
Wenn
A
i
,
i
=
1
,
…
,
N
{\displaystyle A_{i},\;i=1,\dotsc ,N}
eine Zerlegung der Ergebnismenge in disjunkte Ereignisse ist, gilt für die A-posteriori-Wahrscheinlichkeit
P
(
A
i
∣
B
)
{\displaystyle P(A_{i}\mid B)}
P
(
A
i
∣
B
)
=
P
(
B
∣
A
i
)
⋅
P
(
A
i
)
P
(
B
)
=
P
(
B
∣
A
i
)
⋅
P
(
A
i
)
∑
j
=
1
N
P
(
B
∣
A
j
)
⋅
P
(
A
j
)
{\displaystyle P(A_{i}\mid B)\;=\;{\frac {P(B\mid A_{i})\cdot P(A_{i})}{P(B)}}\;=\;{\frac {P\left(B\mid A_{i}\right)\cdot P(A_{i})}{\sum \limits _{j=1}^{N}P\left(B\mid A_{j}\right)\cdot P(A_{j})}}}
.
Den letzten Umformungsschritt bezeichnet man auch als Marginalisierung.
Da ein Ereignis
A
{\displaystyle A}
und sein Komplement
A
¯
{\displaystyle {\overline {A}}}
stets eine Zerlegung der Ergebnismenge darstellen, gilt insbesondere
P
(
A
∣
B
)
=
P
(
B
∣
A
)
⋅
P
(
A
)
P
(
B
∣
A
)
⋅
P
(
A
)
+
P
(
B
∣
A
¯
)
⋅
P
(
A
¯
)
{\displaystyle P(A\mid B)\;=\;{\frac {P(B\mid A)\cdot P(A)}{P(B\mid A)\cdot P(A)+P(B\mid {\overline {A}})\cdot P({\overline {A}})}}}
.
Zufallsvariablen und Verteilungsmodelle
Bearbeiten
Ein Merkmal X, das aufgrund zufälliger Ereignisse eine (endliche) Menge
von Ausprägungen x1 , x2 ... annehmen kann, nennt man diskrete
Zufallsvariable X.
Wahrscheinlichkeitsfunktion:
f
(
x
)
=
{
P
(
X
=
x
i
)
=
p
i
,
x
=
x
i
∈
{
x
1
,
x
2
,
.
.
.
,
x
k
.
.
}
0
s
o
n
s
t
{\displaystyle f(x)={\begin{cases}P(X=x_{i})=p_{i},&x=x_{i}\in \{x_{1},x_{2},...,x_{k}..\}\\0&sonst\end{cases}}}
Verteilungsfunktion:
F
(
x
)
=
P
(
X
≤
x
)
=
∑
i
:
x
i
≤
x
f
(
x
i
)
.
{\displaystyle F(x)=P(X\leq x)=\sum _{i:x_{i}\leq x}f(x_{i}).}
Normiertheit:
∑
i
=
1
k
p
i
=
1.
{\displaystyle \sum _{i=1}^{k}p_{i}=1.}
Erwartungswert
E
(
X
)
=
μ
=
∑
i
=
1
k
x
i
⋅
p
i
=
∑
i
=
1
k
x
i
⋅
f
(
x
i
)
,
{\displaystyle E(X)=\mu =\sum _{i=1}^{k}x_{i}\cdot p_{i}=\sum _{i=1}^{k}x_{i}\cdot f(x_{i})\;,}
Varianz
V
a
r
(
X
)
=
∑
i
=
1
k
(
x
i
−
E
(
X
)
)
2
⋅
f
(
x
i
)
.
{\displaystyle Var(X)=\sum _{i=1}^{k}(x_{i}-E(X))^{2}\cdot f(x_{i})\;.}
bzw. mit dem Verschiebungssatz
V
a
r
(
X
)
=
(
∑
i
=
1
k
x
i
2
⋅
f
(
x
i
)
)
−
E
(
X
2
)
=
{\displaystyle Var(X)=\left(\sum _{i=1}^{k}x_{i}^{2}\cdot f(x_{i})\right)-E(X^{2})=}
Standardabweichung
σ
=
+
V
a
r
(
X
)
.
{\displaystyle \sigma =+{\sqrt {Var(X)}}.}
Varianz der Summe unabhängiger Zufallsvariablen
V
a
r
(
X
+
Y
)
=
V
a
r
(
X
)
+
V
a
r
(
Y
)
.
{\displaystyle Var(X+Y)=Var(X)+Var(Y)\;.}
Einzelwahrscheinlichkeit
P
(
X
=
x
1
)
=
f
X
(
x
1
)
=
∑
j
=
1
m
f
X
,
Y
(
x
1
;
y
j
)
{\displaystyle P(X=x_{1})=f_{X}(x_{1})=\sum _{j=1}^{m}f_{X,Y}(x_{1};y_{j})\quad }
Kovarianz
c
o
v
X
Y
=
∑
i
=
1
n
∑
j
=
1
m
(
x
i
−
E
(
X
)
)
(
y
j
−
E
(
Y
)
)
f
X
,
Y
(
x
i
;
y
j
)
{\displaystyle covXY=\sum _{i=1}^{n}\sum _{j=1}^{m}(x_{i}-E(X))(y_{j}-E(Y))f_{X,Y}(x_{i};y_{j})}
bzw. mit dem Verschiebungssatz
c
o
v
X
Y
=
∑
i
=
1
n
∑
j
=
1
m
x
i
⋅
y
j
⋅
f
X
,
Y
(
x
i
;
y
j
)
−
E
(
X
)
⋅
E
(
Y
)
{\displaystyle covXY=\sum _{i=1}^{n}\sum _{j=1}^{m}x_{i}\cdot y_{j}\cdot f_{X,Y}(x_{i};y_{j})-E(X)\cdot E(Y)}
Korrelationskoeffizient rxy nach Bravais-Pearson
Bearbeiten
für metrisch skalierte Merkmale zweier statistischer Variablen x und y
r
=
∑
i
=
1
n
(
x
i
−
x
¯
)
(
y
i
−
y
¯
)
∑
i
=
1
n
(
x
i
−
x
¯
)
2
⋅
∑
i
=
1
n
(
y
i
−
y
¯
)
2
,
{\displaystyle r={\frac {\sum _{i=1}^{n}(x_{i}-{\bar {x}})(y_{i}-{\bar {y}})}{{\sqrt {\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}}}\cdot {\sqrt {\sum _{i=1}^{n}(y_{i}-{\bar {y}})^{2}}}}},}
mit
x
¯
=
1
n
⋅
∑
i
=
1
n
x
i
{\displaystyle {\bar {x}}={\frac {1}{n}}\cdot \sum _{i=1}^{n}x_{i}}
als dem arithmetischen Mittel des Merkmals x.
Mit Hilfe des Verschiebungssatzes:
r
=
∑
i
=
1
n
x
i
⋅
y
i
−
n
⋅
x
¯
⋅
y
¯
(
∑
i
=
1
n
x
i
2
−
n
⋅
(
x
¯
)
2
)
⋅
(
∑
i
=
1
n
y
i
2
−
n
⋅
(
y
¯
)
2
)
{\displaystyle r={\frac {\sum _{i=1}^{n}x_{i}\cdot y_{i}-n\cdot {\bar {x}}\cdot {\bar {y}}}{\sqrt {(\sum _{i=1}^{n}x_{i}^{2}-n\cdot ({\bar {x}})^{2})\cdot (\sum _{i=1}^{n}y_{i}^{2}-n\cdot ({\bar {y}})^{2})}}}}
Rangkorrelationskoeffizient nach Spearman
Bearbeiten
für Variablen, die stark von der Normalverteilung abweichen
sowie ordinalskalierte Variablen
Nach Ordnung der einzelnen Beobachtungen von x bzw. y der Größe nach wird
jedem Wert wird seine Rangzahl rg(xi ) und rg(yi ) zugewiesen. Damit:
r
S
P
=
∑
i
(
r
g
(
x
i
)
−
r
g
(
x
)
¯
)
(
r
g
(
y
i
)
−
r
g
(
y
)
¯
)
∑
i
(
r
g
(
x
i
)
−
r
g
(
x
)
¯
)
2
∑
i
(
r
g
(
y
i
)
−
r
g
(
y
)
¯
)
2
{\displaystyle r_{SP}={\frac {\sum _{i}(rg(x_{i})-{\overline {rg(x)}})(rg(y_{i})-{\overline {rg(y)}})}{{\sqrt {\sum _{i}(rg(x_{i})-{\overline {rg(x)}})^{2}}}{\sqrt {\sum _{i}(rg(y_{i})-{\overline {rg(y)}})^{2}}}}}}
.
Für eine binomialverteilte Zufallsvariable X mit den Parametern n und θ (0 ≤ θ ≤ 1) lautet die Wahrscheinlichkeitsfunktion
P
(
X
=
x
)
=
b
(
x
|
n
;
θ
)
=
{
(
n
x
)
θ
x
(
1
−
θ
)
n
−
x
falls
x
=
0
,
1
,
…
,
n
0
sonst.
{\displaystyle P(X=x)=b(x|n;\theta )={\begin{cases}{n \choose x}\theta ^{x}(1-\theta )^{n-x}&{\text{falls }}x=0,1,\dots ,n\\0&{\text{sonst.}}\end{cases}}}
Erwartungswert
E
(
X
)
=
n
⋅
θ
{\displaystyle E(X)=n\cdot \theta }
Varianz
V
a
r
(
X
)
=
n
⋅
θ
⋅
(
1
−
θ
)
{\displaystyle Var(X)=n\cdot \theta \cdot (1-\theta )}
Eine Zufallsvariable X ist hypergeometrisch verteilt mit den Parametern
N (Grundgesamtheit), M ("Kugeln der ersten Sorte") und n (Stichprobenumfang),
wenn ihre Wahrscheinlichkeitsfunktion lautet
P
(
X
=
x
)
=
h
(
x
|
N
;
M
;
n
)
=
{
(
M
x
)
⋅
(
N
−
M
n
−
x
)
(
N
n
)
für x = 0, 1, ... , n
0
sonst
{\displaystyle P(X=x)=h(x|N;M;n)={\begin{cases}{\frac {{M \choose x}\cdot {N-M \choose n-x}}{N \choose n}}&{\mbox{ für x = 0, 1, ... , n}}\\0&{\mbox{ sonst}}\end{cases}}}
Erwartungswert
E
(
X
)
=
n
⋅
M
N
=
n
⋅
Θ
{\displaystyle E(X)=n\cdot {\frac {M}{N}}=n\cdot \Theta }
Varianz
V
a
r
(
X
)
=
n
⋅
M
N
⋅
(
1
−
M
N
)
N
−
n
N
−
1
.
{\displaystyle Var(X)=n\cdot {\frac {M}{N}}\cdot \left(1-{\frac {M}{N}}\right){\frac {N-n}{N-1}}.}
Der Bruch
N
−
n
N
−
1
{\displaystyle {\frac {N-n}{N-1}}}
wird Korrekturfaktor genannt.
Wahrscheinlichkeitsfunktion (
λ
>
0
{\displaystyle \lambda >0}
)
P
(
X
=
x
)
=
p
(
x
|
λ
)
=
{
e
−
λ
⋅
λ
x
x
!
für x = 0, 1, ...
0
sonst
{\displaystyle P(X=x)=p(x|\lambda )={\begin{cases}{\frac {e^{-\lambda }\cdot \lambda ^{x}}{x!}}&{\mbox{ für x = 0, 1, ... }}\\0&{\mbox{ sonst}}\end{cases}}}
Erwartungswert und Varianz
E
(
X
)
=
V
a
r
(
X
)
=
λ
{\displaystyle E(X)=Var(X)=\lambda }
Eine stetige Zufallsvariable kann in jedem beschränkten Intervall unendlich viele Ausprägungen annehmen.
Ihre Verteilung lässt sich durch eine Dichtefunktion f(x) beschreiben.
(f(x) ist hier keine Wahrscheinlichkeit, sondern eine Dichte !)
Verteilungsfunktion
P
(
X
≤
a
)
=
F
(
a
)
=
∫
−
∞
a
f
(
x
)
d
x
{\displaystyle P(X\leq a)=F(a)=\int \limits _{-\infty }^{a}f(x)dx}
Wegen P(X = a) = 0 ist P(X ≤ a) = P(X < a) und P(X > a) = P(X ≥ a)
Die Dichtefunktion f(x) ist die erste Ableitung der Verteilungsfunktion, falls diese an der Stelle x differenzierbar ist.
Die Dichtefunktion f(a) kann auch größer als 1 werden.
Ausgehend von
P
(
X
≤
x
)
=
p
{\displaystyle P(X\leq x)=p}
ist das p-Quantil x(p) der Wert x, der zu einer gegebenen Wahrscheinlichkeit p gehört. Speziell x(0,5) ist der Median.
Erwartungswert
E
(
X
)
=
∫
−
∞
∞
x
⋅
f
(
x
)
d
x
,
{\displaystyle E(X)=\int \limits _{-\infty }^{\infty }x\cdot f(x)dx,}
falls E(X) existiert, d.h. nicht unendlich wird.
Varianz
V
a
r
(
X
)
=
∫
−
∞
∞
(
x
−
E
(
X
)
)
2
⋅
f
(
x
)
d
x
{\displaystyle Var(X)=\int \limits _{-\infty }^{\infty }(x-E(X))^{2}\cdot f(x)dx}
wobei auch hier der Verschiebungssatz angewendet werden kann:
V
a
r
(
X
)
=
(
∫
−
∞
∞
x
2
f
(
x
)
d
x
)
−
(
E
(
X
)
)
2
{\displaystyle Var(X)=\left(\int \limits _{-\infty }^{\infty }x^{2}f(x)dx\right)-(E(X))^{2}}
Stetige Gleichverteilung (Rechteckverteilung)
Bearbeiten
Dichtefunktion der Gleichverteilung im Intervall [a,b]
f
(
x
)
=
{
1
b
−
a
für
a
≤
x
≤
b
0
sonst.
{\displaystyle f(x)={\begin{cases}{\frac {1}{b-a}}&{\text{für }}a\leq x\leq b\\0&{\text{sonst.}}\end{cases}}}
Erwartungswert
E
(
X
)
=
a
+
b
2
{\displaystyle E(X)={\frac {a+b}{2}}}
Varianz
V
a
r
(
X
)
=
λ
∫
a
b
x
2
⋅
1
b
−
a
d
x
=
(
b
−
a
)
2
12
{\displaystyle Var(X)=\lambda \int \limits _{a}^{b}x^{2}\cdot {\frac {1}{b-a}}dx={\frac {(b-a)^{2}}{12}}}
Dichtefunktion der Exponentialverteilung
f
(
x
)
=
{
λ
⋅
e
−
λ
x
für
x
≥
0
0
für
x
<
0
{\displaystyle f(x)={\begin{cases}\lambda \cdot e^{-\lambda x}&{\text{für }}x\geq 0\\0&{\text{für }}x<0\\\end{cases}}}
Verteilungsfunktion
P
(
X
≤
x
)
=
1
−
e
−
λ
x
{\displaystyle P(X\leq x)=1-e^{-\lambda x}}
Erwartungswert
E
(
X
)
=
λ
∫
0
∞
x
⋅
e
−
λ
x
d
x
=
1
λ
{\displaystyle E(X)=\lambda \int \limits _{0}^{\infty }x\cdot e^{-\lambda x}dx={\frac {1}{\lambda }}}
Varianz
V
a
r
(
X
)
=
1
λ
2
{\displaystyle Var(X)={\frac {1}{\lambda ^{2}}}}
.
Für eine Zufallsvariable
X
∝
N
(
μ
,
σ
2
)
{\displaystyle X\propto N(\mu ,\sigma ^{2})}
lautet die Dichtefunktion der NV
f
(
x
)
=
1
2
π
⋅
σ
⋅
e
−
(
x
−
μ
)
2
2
σ
2
{\displaystyle f(x)={\frac {1}{{\sqrt {2\pi }}\cdot \sigma }}\cdot e^{-{\frac {(x-\mu )^{2}}{2\sigma ^{2}}}}}
für
x
∈
R
{\displaystyle x\in \mathbb {R} }
Normierung mit
z
=
x
−
μ
σ
{\displaystyle z={\frac {x-\mu }{\sigma }}}
ergibt die Standardnormalverteilung mit der Dichtefunktion
ϕ
x
(
z
)
∝
N
(
0
,
1
)
{\displaystyle \phi _{x}(z)\propto N(0,1)}
:
ϕ
x
(
z
)
=
1
2
⋅
π
⋅
e
−
1
2
z
2
{\displaystyle \phi _{x}(z)={\frac {1}{\sqrt {2\cdot \pi }}}\cdot e^{-{\frac {1}{2}}z^{2}}}
Anm. :Es wird auch die Schreibweise
ϕ
x
(
z
|
μ
,
σ
2
)
{\displaystyle \phi _{x}(z|\mu ,\sigma ^{2})}
anstelle
N
(
μ
,
σ
2
)
{\displaystyle N(\mu ,\sigma ^{2})}
verwendet
Erwartungswert
E
(
X
)
=
μ
{\displaystyle E(X)=\mu }
Varianz
V
a
r
(
X
)
=
σ
2
{\displaystyle Var(X)=\sigma ^{2}}
p-Quantil
Der zu einer gegebenen Wahrscheinlichkeit p zugehörige z-Wert z(p)
P
(
Z
≤
z
(
p
)
)
=
p
{\displaystyle P(Z\leq z(p))=p}
.
Beispielsweise ist z(0,975) = 1,96.
Linearkombinationen normalverteilter Zufallsvariablen
Bearbeiten
Für n normalverteilte Zufallsvariablen
X
i
(
i
=
1
,
.
.
.
,
n
)
,
mit
X
i
∝
N
(
μ
i
;
σ
i
2
)
{\displaystyle X_{i}\;(i=1,...,n),{\text{ mit }}X_{i}\propto N(\mu _{i};\sigma _{i}^{2})}
ist die Linearkombination
Y
=
a
0
+
a
1
X
1
+
a
2
X
2
+
.
.
.
+
a
n
X
n
=
a
0
+
∑
i
=
1
n
a
i
X
i
{\displaystyle Y=a_{0}+a_{1}X_{1}+a_{2}X_{2}+...+a_{n}X_{n}=a_{0}+\sum _{i=1}^{n}a_{i}X_{i}}
ebenfalls normalverteilt mit dem Erwartungswert
E
(
Y
)
=
a
0
+
∑
i
=
1
n
a
i
E
(
X
i
)
=
a
0
+
∑
i
=
1
n
a
i
μ
i
{\displaystyle E(Y)=a_{0}+\sum _{i=1}^{n}a_{i}E(X_{i})=a_{0}+\sum _{i=1}^{n}a_{i}\mu _{i}}
.
Falls die
X
i
(
i
=
1
,
.
.
.
,
n
)
{\displaystyle X_{i}{\text{ }}(i=1,...,n)}
stochastisch unabhängig sind, gilt für die Varianz
V
a
r
(
Y
)
=
∑
i
=
1
n
a
i
2
⋅
(
X
i
)
=
∑
i
=
1
n
a
i
2
σ
i
2
{\displaystyle Var(Y)=\sum _{i=1}^{n}a_{i}^{2}\cdot (X_{i})=\sum _{i=1}^{n}a_{i}^{2}\sigma _{i}^{2}}
.
Die Varianz muss größer Null sein, deshalb muss zudem
a
j
≠
0
{\displaystyle a_{j}\neq 0}
für mindestens ein
j
∈
{
1
,
…
,
n
}
{\displaystyle j\in \{1,\dots ,n\}}
gelten.
Verteilung des Stichprobendurchschnitts
Bearbeiten
Sind die n Zufallsvariablen
X
i
{\displaystyle X_{i}}
(i = 1, ... , n) sämtlich normalverteilt
mit gleichem μ und gleichem σ2 , ist die Linearkombination
X mit a0 = 0, a1 = a2 = ... = an = 1/n, also :
X
¯
=
1
n
∑
i
=
1
n
X
i
{\displaystyle {\bar {X}}={\frac {1}{n}}\sum _{i=1}^{n}X_{i}}
normalverteilt dem Erwartungswert
E
(
X
¯
)
=
1
n
∑
i
=
1
n
μ
=
μ
{\displaystyle E({\bar {X}})={\frac {1}{n}}\sum _{i=1}^{n}\mu =\mu }
und, falls die Xi (i = 1, ... , n) stochastisch unabhängig sind, mit der Varianz
V
a
r
(
X
¯
)
=
1
n
2
∑
i
=
1
n
σ
2
=
σ
2
n
{\displaystyle Var({\bar {X}})={\frac {1}{n^{2}}}\sum _{i=1}^{n}\sigma ^{2}={\frac {\sigma ^{2}}{n}}}
.
Die
X
1
,
X
2
,
.
.
.
X
n
{\displaystyle X_{1},X_{2},...X_{n}}
seien unabhängige standardnormalverteilte Zufallsvariablen.
Dann ist die Verteilung der Zufallsvariablen
Z
=
X
1
2
+
X
2
2
+
.
.
.
+
X
n
2
{\displaystyle Z=X_{1}^{2}+X_{2}^{2}+...+X_{n}^{2}}
chi-quadrat verteilt mit n Freiheitsgraden
Z
∝
χ
2
(
n
)
{\displaystyle Z\propto \chi ^{2}(n)}
Erwartungswert:
E
(
Z
)
=
n
{\displaystyle E(Z)=n}
Varianz
V
a
r
(
Z
)
=
2
n
{\displaystyle Var(Z)=2n}
.
Anm. : Die Gruppe der Hypothesentests mit
χ
2
{\displaystyle \chi ^{2}}
-Verteilung bezeichnet man als
χ
2
{\displaystyle \chi ^{2}}
-Test .
Hierunter sind mehrere Tests zu verstehen:
Verteilungstest oder Anpassungstest : Hier wird geprüft, ob vorliegende Daten auf eine bestimmte Weise verteilt sind.
Unabhängigkeitstest : Hier wird geprüft, ob zwei Merkmale stochastisch unabhängig sind.
Homogenitätstest : Hier wird geprüft, ob zwei oder mehr Stichproben derselben Verteilung bzw. einer homogenen Grundgesamtheit entstammen.
Für die unabhängigen Variablen
X
{\displaystyle X}
(standardnormalverteilt) und
Z
(
Z
∝
χ
2
(
n
)
)
{\displaystyle Z\;(Z\propto \chi ^{2}(n))}
ist die Variable
T
=
X
Z
/
n
{\displaystyle T={\frac {X}{\sqrt {Z/n}}}}
t-verteilt
(
T
∝
t
(
n
)
)
{\displaystyle (T\propto t(n)\;)}
mit n Freiheitsgraden.
Erwartungswert
E
(
T
)
=
0
{\displaystyle E(T)=0}
für
(
m
≥
2
)
{\displaystyle (m\geq 2)}
Varianz
V
a
r
(
T
)
=
n
n
−
2
{\displaystyle Var(T)={\frac {n}{n-2}}}
für
(
n
≥
3
)
{\displaystyle (n\geq 3)}
Für die unabhängigen Variablen
X
∝
χ
2
(
m
)
{\displaystyle X\propto \chi ^{2}(m)}
und
Y
∝
χ
2
(
n
)
{\displaystyle Y\propto \chi ^{2}(n)}
ist die Verteilung der Variablen
Z
=
X
/
m
Y
/
n
{\displaystyle Z={\frac {X/m}{Y/n}}}
Fisher- oder F-verteilt
(
Z
∝
F
(
m
,
n
)
)
{\displaystyle (Z\propto F(m,n)\;)}
mit den Freiheitsgraden m und n.
Erwartungswert
E
(
T
)
=
n
n
−
2
{\displaystyle E(T)={\frac {n}{n-2}}}
für
(
n
≥
3
)
{\displaystyle (n\geq 3)}
Varianz
V
a
r
(
Z
)
=
2
n
2
(
n
+
m
−
2
)
m
(
n
−
4
)
(
n
−
2
)
2
{\displaystyle Var(Z)={\frac {2n^{2}(n+m-2)}{m(n-4)(n-2)^{2}}}}
für
(
n
≥
3
)
{\displaystyle (n\geq 3)}
Gesuchte Verteilung
Approximation durch
P
(
X
≤
x
)
{\displaystyle P(X\leq x)}
Binomial
Poisson
Normal
Binomial
B
(
x
|
n
θ
)
≈
{\displaystyle B(x|n\theta )\approx }
---
P
(
x
|
n
θ
)
{\displaystyle P(x|n\theta )}
falls
n
≥
50
{\displaystyle {\mbox{ falls }}n\geq 50}
und
θ
≤
0
,
05
{\displaystyle {\mbox{ und }}\theta \leq 0,05}
Φ
(
x
+
0
,
5
|
n
⋅
θ
;
n
⋅
θ
⋅
(
1
−
θ
)
)
{\displaystyle \Phi (x+0,5|n\cdot \theta ;n\cdot \theta \cdot (1-\theta ))}
falls
n
>
9
θ
(
1
−
θ
)
{\displaystyle {\mbox{ falls }}n>{\frac {9}{\theta (1-\theta )}}}
Hypergeometrische
H
(
x
|
N
;
M
;
n
)
≈
{\displaystyle H(x|N;M;n)\approx }
B
(
x
|
n
M
N
)
{\displaystyle B(x|n{\frac {M}{N}})}
falls
n
N
<
0
,
05
{\displaystyle {\mbox{ falls }}{\frac {n}{N}}<0,05}
über Binomialverteilung
Φ
(
x
+
0
,
5
|
n
⋅
M
N
;
n
⋅
M
N
⋅
(
1
−
M
N
)
⋅
N
−
n
N
−
1
{\displaystyle \Phi (x+0,5|n\cdot {\overset {\text{ }}{\frac {M}{N}}};n\cdot {\frac {M}{N}}\cdot (1-{\frac {M}{N}})\cdot {\frac {N-n}{N-1}}}
falls
n
>
9
M
N
⋅
(
1
−
M
N
)
{\displaystyle {\mbox{ falls }}n>{\frac {9}{{\frac {M}{N}}\cdot (1-{\frac {M}{N}})}}}
und
n
N
<
0
,
05
{\displaystyle {\mbox{ und }}{\underset {\text{ }}{\frac {n}{N}}}<0,05}
Poisson
P
(
x
|
λ
)
≈
{\displaystyle P(x|\lambda )\approx }
---
---
Φ
(
x
+
0
,
5
|
λ
;
λ
)
falls
λ
>
9
{\displaystyle \Phi (x+0,5|\lambda ;\lambda ){\mbox{ falls }}\lambda >9}
χ2 -Verteilung
χ
2
(
x
|
n
)
{\displaystyle \chi ^{2}(x|n)}
→
P
(
2
X
≤
2
x
)
≈
{\displaystyle P({\sqrt {2X}}\leq {\sqrt {2x}})\approx }
---
---
Φ
(
2
x
|
2
n
−
1
;
1
)
{\displaystyle \Phi ({\overset {\text{ }}{\sqrt {2x}}}|{\sqrt {2n-1}};1)}
falls
n
>
30
{\displaystyle {\mbox{ falls }}n>30}
t-Verteilung
t
(
x
|
n
)
≈
{\displaystyle t(x|n)\approx }
---
---
Φ
(
x
|
0
;
1
)
falls
n
>
30
{\displaystyle \Phi (x|0;1){\mbox{ falls }}n>30}
F-Verteilung
F
(
x
|
m
;
n
)
≈
{\displaystyle F(x|m;n)\approx }
---
---
Φ
(
x
|
0
;
1
)
falls
{\displaystyle \Phi (x|0;1){\mbox{ falls }}}
m
>
30
und
n
>
30
{\displaystyle m>30{\mbox{ und }}n>30}
Für ein beliebig kleines c > 0 gilt
P
(
|
X
¯
n
−
μ
|
≤
c
)
→
1
{\displaystyle P(|{\bar {X}}_{n}-\mu |\leq c)\rightarrow 1}
für
(
n
→
∞
)
{\displaystyle (n\rightarrow \infty )}
Die relative Häufigkeit, mit der ein Ereignis A bei n unabhängigen Wiederholungen
eines Zufallsereignisses eintritt, konvergiert nach Wahrscheinlichkeit gegen P(A)
Für eine Zufallsvariable X mit der Verteilungsfunktion F(x) gilt für die Verteilungsfunktion Fn (x)
für die unabhängigen wie identisch wie X verteilten X1 …Xn (x∈ R )
P
(
s
u
p
|
F
n
(
x
)
−
F
(
x
)
|
≤
c
)
→
1
für
(
n
→
∞
)
{\displaystyle P(sup|F_{n}(x)-F(x)|\leq c)\rightarrow 1{\mbox{ für }}(n\rightarrow \infty )}
(sup: Maximale Abweichung zwischen
F
^
n
(
x
)
{\displaystyle {\hat {F}}_{n}(x)}
und
F
^
(
x
)
{\displaystyle {\hat {F}}(x)}
).
Für unabhängig identisch verteilte Zufallsvariablen X1 …Xn mit E(Xi ) = μ
und Var(Xi ) =σ2 > 0 konvergiert die Verteilungsfunktion Fn (z) = P(Zn ≤z)
der standardisierten Summe
Z
n
=
X
1
+
.
.
+
X
n
−
n
⋅
μ
n
σ
=
1
n
∑
i
=
1
n
X
i
−
μ
σ
{\displaystyle Z_{n}={\frac {X_{1}+..+X_{n}-n\cdot \mu }{{\sqrt {n}}\sigma }}={\frac {1}{\sqrt {n}}}\sum _{i=1}^{n}{\frac {X_{i}-\mu }{\sigma }}}
für n → ∞ an jeder Stelle
z
∈
R
{\displaystyle z\in \mathbb {R} }
gegen die Verteilungsfunktion
ϕ
x
(
z
)
{\displaystyle \phi _{x}(z)}
der Standardnormalverteilung
F
n
(
z
)
⇒
ϕ
x
(
z
)
{\displaystyle F_{n}(z)\Rightarrow \phi _{x}(z)}
Die Verteilung der standardisierten absoluten Häufigkeit
H
n
−
n
⋅
π
n
π
(
1
−
π
)
{\displaystyle {\frac {H_{n}-n\cdot \pi }{\sqrt {n\pi (1-\pi )}}}}
der Standardnormalverteilung
konvergiert für n → ∞ gegen eine Standardnormalverteilung.
Die Ausprägungen des nominalskalierten Merkmals können nicht geordnet werden,
man kann sie nur vergleichen und abzählen .
Es handelt sich um qualitative Merkmale. Erhalten die Ausprägungen Ziffern zugeordnet,
handelt es sich nur um eine Verschlüsselung (Codierung): 1 = männlich, 2 = weiblich.
Zwischen den Ausprägungen des ordinalskalierten (rangskalierten) Merkmals existiert eine Beziehung
der Form mehr oder weniger, < oder >, besser oder schlechter.
Eine Quotientenbildung macht wenig Sinn (Beispiel Noten: 1, 2, 3, 4, 5).
Die Abstände zwischen den Ausprägungen des (quantitativen) Merkmals der Intervallskala
können gemessen werden. Es handelt sich bei den Ausprägungen um (reelle) Zahlen.
Beispiel: Kinderzahl, Temperatur.
Sowohl die Abstände als auch Verhältnisse zwischen den Ausprägungen des (quantitativen) Merkmals
können gemessen werden. Es handelt sich bei den Ausprägungen um (reelle) Zahlen. Beispiel: Einkommen.
Die linke Spalte enthält als „Stämme“ die Äquivalenzklassen, in die die auf der rechten Seite als „Blätter“
dargestellten Merkmale eingeteilt werden. Beispiel: Gegeben sind die Werte 0,3 0,4 2,5 2,5 2,6 2,7 2,8 3,5 3,7.
Wählt man die natürlichen Zahlen als Klasseneinteilung, ergibt sich folgendes Stamm-Blatt-Diagramm:
3
5
7
2
5
5
6
7
8
1
0
3
4
X
¯
=
1
n
∑
i
=
1
n
x
i
{\displaystyle {\bar {X}}={\frac {1}{n}}\sum _{i=1}^{n}x_{i}}
Sind die Beobachtungswerte der Größe nach geordnet, ist der Median z die Stelle, die die Teilgesamtheit in zwei gleiche Hälften teilt.
z
=
{
x
[
n
+
1
2
]
n ungerade
1
2
(
x
[
n
2
]
+
x
[
n
2
+
1
]
)
n gerade
{\displaystyle z={\begin{cases}x_{[{\frac {n+1}{2}}]}&{\text{n ungerade }}\\{\frac {1}{2}}(x_{[{\frac {n}{2}}]}+x_{[{\frac {n}{2}}+1]})&{\text{n gerade}}\\\end{cases}}}
X
¯
g
e
o
m
=
∏
i
=
1
n
x
i
n
{\displaystyle {\bar {X}}_{geom}={\sqrt[{n}]{\prod _{i=1}^{n}x_{i}}}}
X
¯
h
a
r
m
=
n
∑
i
=
1
n
1
x
i
{\displaystyle {\bar {X}}_{harm}={\frac {n}{\sum \limits _{i=1}^{n}{\frac {^{1}}{x_{i}}}}}}
Der am häufigsten auftretende Wert
Grundgesamtheit:
σ
2
=
1
n
∑
i
=
1
n
(
x
i
−
μ
)
2
{\displaystyle \sigma ^{2}={\frac {1}{n}}\sum _{i=1}^{n}(x_{i}-\mu )^{2}}
Stichprobe:
s
¯
2
=
1
n
−
1
∑
i
=
1
n
(
x
i
−
X
¯
)
2
{\displaystyle {\bar {s}}^{2}={\frac {1}{n-1}}\sum _{i=1}^{n}(x_{i}-{\bar {X}})^{2}}
Für jedes
c
∈
R
{\displaystyle c\in \mathbb {R} }
gilt
∑
i
=
1
n
(
x
i
−
c
)
2
=
∑
i
=
1
n
(
x
i
−
X
¯
)
2
+
n
(
X
¯
−
c
)
2
{\displaystyle \sum _{i=1}^{n}(x_{i}-c)^{2}=\sum _{i=1}^{n}(x_{i}-{\bar {X}})^{2}+n({\bar {X}}-c)^{2}}
Damit erhält man als Varianz
s
2
=
1
n
(
∑
i
=
1
n
x
i
2
−
n
⋅
X
¯
2
)
{\displaystyle s^{2}={\frac {1}{n}}(\sum _{i=1}^{n}x_{i}^{2}-n\cdot {\bar {X}}^{2})}
v
=
s
¯
X
¯
,
X
¯
>
0
{\displaystyle v={\frac {\bar {s}}{\bar {X}}},\;\;{\bar {X}}>0}
Die Konzentrationsrate CRn ist die Summe der Marktanteile der n größten Unternehmen eines relevanten Marktes. Im GWB
werden die Raten CR1 , CR3 und CR5 herangezogen.
Für eine geordnete Urliste x1 ≤ x2 … ≤xn trägt man die kumulierte relative Merkmalssumme
q
i
=
∑
k
=
1
j
x
i
∑
k
=
1
n
x
i
{\displaystyle q_{i}={\frac {\sum \limits _{k=1}^{j}x_{i}}{\sum \limits _{k=1}^{n}x_{i}}}}
über den Anteil der Merkmalsträger
p
j
=
j
n
{\displaystyle p_{j}={\frac {j}{n}}}
auf.
Liegen die Merkmale in gruppierter Form vor, trägt man die kumulierte relative Merkmalssumme
q
i
=
∑
k
=
1
j
x
i
∑
k
=
1
n
x
i
{\displaystyle q_{i}={\frac {\sum \limits _{k=1}^{j}x_{i}}{\sum \limits _{k=1}^{n}x_{i}}}}
über der Häufigkeit
p
i
=
1
n
⋅
∑
j
=
1
i
h
j
{\displaystyle p_{i}={\frac {1}{n}}\cdot \sum _{j=1}^{i}h_{j}}
auf.
Zwischen (0;0) und (1;1) wird die Winkelhalbierende des Koordinatensystems eingetragen.
Als Ginikoeffizient G bezeichnet man das Verhältnis der Fläche zwischen Winkelhalbierender und der Lorenzkurve
zur Gesamtfläche unter der Winkelhalbierenden (= 1/2).
Die Fläche unterhalb der Lorenzkurve kann man einfach aus Teil-Trapezflächen zusammensetzen:
G
=
(
1
2
−
1
2
∑
i
=
1
n
Δ
p
i
⋅
(
q
i
−
1
+
q
i
)
)
:
1
2
=
1
−
∑
i
=
1
n
(
p
i
−
p
i
−
1
)
⋅
(
q
i
−
1
+
q
i
)
{\displaystyle G=\left({\frac {1}{2}}-{\frac {1}{2}}\sum _{i=1}^{n}\Delta p_{i}\cdot (q_{i-1}+q_{i})\right):{\frac {1}{2}}=1-\sum _{i=1}^{n}(p_{i}-p_{i-1})\cdot (q_{i-1}+q_{i})}
(p0 = 0 ; q0 = 0):
H
=
∑
i
=
1
n
p
i
2
,
wobei
p
i
=
x
i
∑
j
=
1
n
x
j
{\displaystyle H=\sum \limits _{i=1}^{n}p_{i}^{2},{\mbox{wobei }}p_{i}={\frac {x_{i}}{\sum \limits _{j=1}^{n}x_{j}}}}
Konfidenzintervall für den Erwartungswert μ
Bearbeiten
Normalverteiltes Merkmal mit bekannter Varianz
Bearbeiten
Das Zufallsintervall enthält mit einer Wahrscheinlichkeit 1-α den Parameter:
P
(
x
¯
−
z
1
−
α
/
2
⋅
σ
n
≤
−
μ
≤
x
¯
+
z
1
−
α
/
2
⋅
σ
n
)
=
1
−
α
{\displaystyle P\left({\bar {x}}-z_{1-\alpha /2}\cdot {\frac {\sigma }{\sqrt {n}}}\leq -\mu \leq {\bar {x}}+z_{1-\alpha /2}\cdot {\frac {\sigma }{\sqrt {n}}}\right)=1-\alpha }
Konfidenzintervall
[
x
¯
−
z
(
1
−
α
2
)
σ
n
;
x
¯
+
z
(
1
−
α
2
)
σ
n
]
.
{\displaystyle \left[{\bar {x}}-z(1-{\begin{matrix}{\frac {\alpha }{2}}\end{matrix}}){\frac {\sigma }{\sqrt {n}}};{\bar {x}}+z(1-{\begin{matrix}{\frac {\alpha }{2}}\end{matrix}}){\frac {\sigma }{\sqrt {n}}}\right]\;.}
(Quantil z aus Normalverteilungstabelle)
Normalverteiltes Merkmal mit unbekannter Varianz
Bearbeiten
Für normalverteilte Merkmale und unbekannter Varianz muss die Varianz durch s2 geschätzt werden.
P
(
x
¯
−
t
(
1
−
α
2
;
n
−
1
)
s
n
≤
μ
≤
x
¯
+
t
(
1
−
α
2
;
n
−
1
)
s
n
)
=
1
−
α
.
{\displaystyle P\left({\bar {x}}-t(1-{\begin{matrix}{\frac {\alpha }{2}}\end{matrix}};n-1){\frac {s}{\sqrt {n}}}\leq \mu \leq {\bar {x}}+t(1-{\begin{matrix}{\frac {\alpha }{2}}\end{matrix}};n-1){\frac {s}{\sqrt {n}}}\right)=1-\alpha \;.}
.
Konfidenzintervall
[
x
¯
−
t
(
1
−
α
2
;
n
−
1
)
s
n
;
x
¯
+
t
(
1
−
α
2
;
n
−
1
)
s
n
]
.
{\displaystyle \left[{\bar {x}}-t(1-{\begin{matrix}{\frac {\alpha }{2}}\end{matrix}};n-1){\frac {s}{\sqrt {n}}}\ ;\ {\bar {x}}+t(1-{\begin{matrix}{\frac {\alpha }{2}}\end{matrix}};n-1){\frac {s}{\sqrt {n}}}\right]\;.}
(Quantil
t
(
1
−
α
2
;
n
−
1
)
{\displaystyle t(1-{\begin{matrix}{\frac {\alpha }{2}}\end{matrix}};n-1)}
aus der t-Verteilungstabelle bei Freiheitsgrad n-1).
Merkmal mit unbekannter Verteilung und bekannter Varianz
Bearbeiten
Konfidenzintervall
[
x
¯
−
z
(
1
−
α
2
)
σ
n
;
x
¯
+
z
(
1
−
α
2
)
σ
n
]
.
{\displaystyle \left[{\bar {x}}-z(1-{\begin{matrix}{\frac {\alpha }{2}}\end{matrix}}){\frac {\sigma }{\sqrt {n}}};{\bar {x}}+z(1-{\begin{matrix}{\frac {\alpha }{2}}\end{matrix}}){\frac {\sigma }{\sqrt {n}}}\right]\;.}
für n > 30.
Merkmal mit unbekannter Verteilung und unbekannter Varianz
Bearbeiten
Konfidenzintervall
[
x
¯
−
z
(
1
−
α
2
)
s
n
;
x
¯
+
z
(
1
−
α
2
)
s
n
]
.
{\displaystyle \left[{\bar {x}}-z(1-{\begin{matrix}{\frac {\alpha }{2}}\end{matrix}}){\frac {s}{\sqrt {n}}}\ ;\ {\bar {x}}+z(1-{\begin{matrix}{\frac {\alpha }{2}}\end{matrix}}){\frac {s}{\sqrt {n}}}\right]\;.}
für n > 50
Konfidenzintervalle für den Anteilswert einer dichotomen Grundgesamtheit
Bearbeiten
Beschreibung durch den geschätztem Anteilswert
p
^
=
x
n
{\displaystyle {\hat {p}}={\frac {x}{n}}}
. Für n > 100 und
n
p
^
(
1
−
p
^
)
≥
9
{\displaystyle n{\hat {p}}(1-{\hat {p}})\geq 9}
)
erhält man das 1-α-Konfidenzintervall für p durch eine Approximation der Binomialverteilung mit Hilfe der Normalverteilung:
[
p
^
−
z
(
1
−
α
2
)
p
^
(
1
−
p
^
)
n
;
p
^
+
z
(
1
−
α
2
)
p
^
(
1
−
p
^
)
n
]
.
{\displaystyle \left[{\hat {p}}-z(1-{\begin{matrix}{\frac {\alpha }{2}}\end{matrix}}){\sqrt {\frac {{\hat {p}}(1-{\hat {p}})}{n}}}\ ;\ {\hat {p}}+z(1-{\begin{matrix}{\frac {\alpha }{2}}\end{matrix}}){\sqrt {\frac {{\hat {p}}(1-{\hat {p}})}{n}}}\right].}
Für
n
>
9
p
(
1
−
p
)
,
n
>
100
n
/
N
≤
0
,
05
{\displaystyle n>{\tfrac {9}{p(1-p)}},n>100n/N\leq 0,05}
kann die hypergeometrische Verteilung durch die Normalverteilung approximiert werden:
(
1
−
α
)
{\displaystyle (1-\alpha )}
-Konfidenzintervall für
θ
{\displaystyle \theta }
:
[
p
−
z
(
1
−
α
2
)
p
(
1
−
p
)
n
N
−
n
N
−
1
;
p
+
z
(
1
−
α
2
)
p
(
1
−
p
)
n
N
−
n
N
−
1
]
.
{\displaystyle \left[\ p-z\left(1-{\frac {\alpha }{2}}\right){\sqrt {\frac {p(1-p)}{n}}}{\sqrt {\frac {N-n}{N-1}}}\ ;\ p+z\left(1-{\frac {\alpha }{2}}\right){\sqrt {\frac {p(1-p)}{n}}}{\sqrt {\frac {N-n}{N-1}}}\ \right].}
I. Feststellung der Verteilung des Merkmals in der Grundgesamtheit
II. Aufstellen der Nullhypothese
III. Festlegen der Testfunktion T
IV. Festlegen des Annahmebereichs ("Nichtablehnungsbereichs") (für ein zu bestimmendes Signifikanzniveau)
Fällt die Prüfgröße
x
¯
{\displaystyle {\overline {x}}}
in den Bereich [
x
¯
{\displaystyle {\overline {x}}}
u ;
x
¯
{\displaystyle {\overline {x}}}
o ],
wird H0 nicht abgelehnt. Es soll sein
P
(
x
¯
u
≤
X
¯
≤
x
¯
o
)
=
1
−
α
{\displaystyle P({\bar {x}}_{u}\leq {\bar {X}}\leq {\bar {x}}_{o})=1-\alpha }
(beachte: ein- oder zweiseitig)
α : Signifikanzniveau oder α-Fehler
V. Stichprobe erheben
VI. Entscheidung treffen
H0 ist wirklich wahr
H1 ist wirklich wahr
H0 wird beibehalten
richtige Entscheidung (1-α)
Fehler 2. Art (β-Fehler)
H1 wird angenommen
Fehler 1. Art (α-Fehler)
richtige Entscheidung (1-β)
Test
H
0
{\displaystyle H_{0}}
H
1
{\displaystyle H_{1}}
zweiseitig
μ = μ0
μ ≠ μ0
rechtsseitig
μ ≤ μ0
μ > μ0
linksseitig
μ ≥ μ0
μ < μ0
Zweiseitiger Test für
x
¯
{\displaystyle {\overline {x}}}
linksseitiger Test für
x
¯
{\displaystyle {\overline {x}}}
Rechtsseitiger Test für
x
¯
{\displaystyle {\overline {x}}}
1. X ist normalverteilt, σ ist bekannt bei beliebigem n bzw. näherungsweise normalverteilt bei n > 30
Testfunktion
T
=
X
¯
n
−
μ
0
σ
⋅
n
∼
N
(
0
;
1
)
{\displaystyle T={\frac {{\bar {X}}_{n}-\mu _{0}}{\sigma }}\cdot {\sqrt {n}}\;\;\sim N(0;1)}
(Gauß-Test):
Ablehnungsbereich
zweiseitig
|
T
|
>
z
1
−
α
/
2
{\displaystyle |T|>z_{1-\alpha /2}}
rechtsseitig
|
T
|
>
z
1
−
α
{\displaystyle |T|>z_{1-\alpha }}
linksseitig
|
T
|
<
−
z
1
−
α
{\displaystyle |T|<-z_{1-\alpha }}
2. X ist normalverteilt, σ ist unbekannt bei beliebigem n
Testfunktion
T
=
X
n
¯
−
μ
0
S
⋅
n
∼
t
(
n
−
1
)
{\displaystyle T={\frac {{\bar {X_{n}}}-\mu _{0}}{S}}\cdot {\sqrt {n}}\;\;\sim t(n-1)\;\;}
(t-Test).
Ablehnungsbereich
zweiseitig
|
T
|
>
t
1
−
n
,
1
−
α
/
2
{\displaystyle |T|>t_{1-n,1-\alpha /2}}
rechtsseitig
|
T
|
>
t
n
−
1
,
1
−
α
{\displaystyle |T|>t_{n-1,1-\alpha }}
linksseitig
|
T
|
<
−
t
n
−
1
,
1
−
α
{\displaystyle |T|<-t_{n-1,1-\alpha }}
3. X ist näherungsweise normalverteilt, σ ist unbekannt bei n > 30
Testfunktion
T
=
X
n
¯
−
μ
0
S
⋅
n
≈
N
(
0
;
1
)
{\displaystyle T={\frac {{\bar {X_{n}}}-\mu _{0}}{S}}\cdot {\sqrt {n}}\;\approx N(0;1)}
(Gauß-Test) .
Ablehnungsbereich
zweiseitig
|
T
|
>
t
1
−
n
,
1
−
α
/
2
{\displaystyle |T|>t_{1-n,1-\alpha /2}}
rechtsseitig
|
T
|
>
t
n
−
1
,
1
−
α
{\displaystyle |T|>t_{n-1,1-\alpha }}
linksseitig
|
T
|
<
−
t
n
−
1
,
1
−
α
{\displaystyle |T|<-t_{n-1,1-\alpha }}
Einseitig
Zweiseitig
H
0
{\displaystyle \,H_{0}}
P
(
X
≥
θ
0
)
≥
1
/
2
{\displaystyle \,P(X\geq \theta _{0})\geq 1/2}
P
(
X
≥
θ
0
)
≤
1
/
2
{\displaystyle \,P(X\geq \theta _{0})\leq 1/2}
P
(
X
≥
θ
0
)
=
1
/
2
{\displaystyle \,P(X\geq \theta _{0})=1/2}
H
1
{\displaystyle \,H_{1}}
P
(
X
≥
θ
0
)
<
1
/
2
{\displaystyle \,P(X\geq \theta _{0})<1/2}
P
(
X
≥
θ
0
)
>
1
/
2
{\displaystyle \,P(X\geq \theta _{0})>1/2}
P
(
X
≥
θ
0
)
≠
1
/
2
{\displaystyle \,P(X\geq \theta _{0})\neq 1/2}
H
0
{\displaystyle \,H_{0}}
θ
≥
θ
0
{\displaystyle \,\theta \geq \theta _{0}}
θ
≤
θ
0
{\displaystyle \,\theta \leq \theta _{0}}
θ
=
θ
0
{\displaystyle \,\theta =\theta _{0}}
H
1
{\displaystyle \,H_{1}}
θ
<
θ
0
{\displaystyle \,\theta <\theta _{0}}
θ
>
θ
0
{\displaystyle \,\theta >\theta _{0}}
θ
≠
θ
0
{\displaystyle \,\theta \neq \theta _{0}}
Die Stichprobenwerte, die größer als der hypothetische Median
θ
0
{\displaystyle \theta _{0}}
sind, bekommen ein "+" zugeordnet;
Werte, die kleiner sind, ein "-". Die Anzahl der positiven Vorzeichen wird gezählt und dient als Teststatistik.
Die
n
{\displaystyle n}
Beobachtungspaare dürfen nicht voneinander abhängen, d.h. das Wertepaar
(
x
1
i
,
x
2
i
)
{\displaystyle (x_{1i},x_{2i})\,}
muss unabhängig
vom Wertepaar
(
x
1
j
,
x
2
j
)
,
∀
i
≠
j
{\displaystyle (x_{1j},x_{2j}),\forall \;i\neq j}
sein.
Besitzen beide Grundgesamtheiten den gleichen Median, gilt
P
(
X
11
>
X
12
)
=
P
(
X
11
<
X
12
)
{\displaystyle P(X_{11}>X_{12})=P(X_{11}<X_{12})}
.
Folgende Hypothesen können mit dem Vorzeichentest geprüft werden:
Einseitig
Zweiseitig
H
0
{\displaystyle \,H_{0}}
P
(
X
1
≥
X
2
)
≥
1
/
2
{\displaystyle \,P(X_{1}\geq X_{2})\geq 1/2}
P
(
X
1
≥
X
2
)
≤
1
/
2
{\displaystyle \,P(X_{1}\geq X_{2})\leq 1/2}
P
(
X
1
≥
X
2
)
=
1
/
2
{\displaystyle \,P(X_{1}\geq X_{2})=1/2}
H
1
:
{\displaystyle \,H_{1}:}
P
(
X
1
≥
X
2
)
<
1
/
2
{\displaystyle \,P(X_{1}\geq X_{2})<1/2}
P
(
X
1
≥
X
2
)
>
1
/
2
{\displaystyle \,P(X_{1}\geq X_{2})>1/2}
P
(
X
1
≥
X
2
)
≠
1
/
2
{\displaystyle \,P(X_{1}\geq X_{2})\neq 1/2}
Die Wertepaare der Stichproben, bei denen
x
i
1
>
x
i
2
{\displaystyle x_{i1}>x_{i2}}
gilt, bekommen ein "+" zugeordnet;
Wertepaare, für die
x
i
1
<
x
i
2
{\displaystyle x_{i1}<x_{i2}}
gilt, ein "-". Die Anzahl der positiven Vorzeichen wird gezählt
und dient als Teststatistik. Die Teststatistik entspricht der Anzahl der positiven Vergleiche (Differenzen der Werte bzw. Ränge):
V
=
∑
i
=
1
n
′
I
(
x
i
1
>
x
i
2
)
∼
B
(
π
=
0
,
5
,
n
′
)
{\displaystyle V=\sum _{i=1}^{n'}\mathrm {I} (x_{i1}>x_{i2})\sim B(\pi =0{,}5,n')}
mit
I
(
x
i
1
>
x
i
2
)
=
{
1
,
wenn
x
i
1
>
x
i
2
0
,
sonst
{\displaystyle \mathrm {I} (x_{i1}>x_{i2})={\begin{cases}1,\quad {\text{wenn}}\;x_{i1}>x_{i2}\\0,\quad {\text{sonst}}\\\end{cases}}}
Für das Einstichprobenproblem sind die Werte der zweiten Stichprobe durch den hypothetischen Median zu ersetzen.
Bei Gültigkeit der Nullhypothese
H
0
{\displaystyle H_{0}}
ist die Summe der positiven Differenzen binomialverteilt mit
π
=
0
,
5
{\displaystyle \pi =0{,}5}
,
da der Median dem 50 %-Quantil entspricht. n' bezeichnet den nach Behandlung von Ties (Nulldifferenzen, Rangbindungen, s.u.)
verbleibenden Stichprobenumfang. Bei Gültigkeit der Nullyhypothese ist die Verteilung der Prüfgröße symmetrisch.
Approximation durch die Normalverteilung
Mit
n
→
∞
{\displaystyle n\rightarrow \infty }
nähert sich die Binomialverteilung einer Normalverteilung mit
N
(
n
p
,
n
p
(
1
−
p
)
)
{\displaystyle N(np,np(1-p))}
,
als Faustregel
n
p
(
1
−
p
)
≥
9
{\displaystyle np(1-p)\geq 9}
(
H
0
:
p
=
1
/
2
{\displaystyle H_{0}:p=1/2}
).
Mit
1
4
n
≥
9
{\displaystyle {\tfrac {1}{4}}n\geq 9}
bzw.
n
≥
36
{\displaystyle n\geq 36}
ist die z-standardisierte Größe
z
V
=
∑
i
=
1
n
′
−
1
2
⋅
n
′
1
2
n
′
≈
N
(
0
,
1
)
{\displaystyle z_{V}={\frac {\sum _{i=1}^{n'}-{\frac {1}{2}}\cdot n'}{{\tfrac {1}{2}}{\sqrt {n'}}}}\approx N(0,1)}
näherungsweise standardnormalverteilt.
Bindungen (Nulldifferenzen)
Sind im Zweistichprobenproblem die Werte von Beobachtungen von der ersten zur zweiten Stichprobe unverändert
oder im Einstichprobenproblem einige Werte gleich dem Median, ergeben sich Nulldifferenzen bzw. Bindungen (Ties),
die man so behandeln kann:
Beobachtungen mit Rangbindungen werden eliminiert, d.h. der Stichprobenumfang wird reduziert.
Die Beobachtungen werden zu gleichen Teilen den Gruppen zugeordnet. Bei ungerader Anzahl von Bindungen wird ein Beobachtungspaar eliminiert.
Die Beobachtungen werden jeweils mit einer Wahrscheinlichkeit von 0,5 einer der beiden Gruppen (+ oder -) zugeordnet.
Der Anteilswert θ wird geschätzt durch
θ
^
=
p
=
x
n
{\displaystyle {\hat {\theta }}=p={\frac {x}{n}}}
.
Mit dem Binomialtest können folgende Hypothesenpaare für θ getestet werden:
Test
H
0
{\displaystyle H_{0}}
H
1
{\displaystyle H_{1}}
zweiseitig
θ
=
θ
0
{\displaystyle \theta =\theta _{0}}
θ
≠
θ
0
{\displaystyle \theta \neq \theta _{0}}
rechtsseitig
θ
≤
θ
0
{\displaystyle \theta \leq \theta _{0}}
θ
>
θ
0
{\displaystyle \theta >\theta _{0}}
linksseitig
θ
≥
θ
0
{\displaystyle \theta \geq \theta _{0}}
θ
<
θ
0
{\displaystyle \theta <\theta _{0}}
für n > 30 , nθ0 ≥ 10 n(1-θ0 ) ≥ 10
kann man durch die Gauß-Verteilung approximieren:
Testfunktion
T
=
θ
−
θ
0
θ
0
(
1
−
θ
0
)
⋅
n
≈
N
(
0
;
1
)
{\displaystyle T={\frac {\theta -\theta _{0}}{\sqrt {\theta _{0}(1-\theta _{0})}}}\cdot {\sqrt {n}}\;\;\approx N(0;1)}
(Gauß-Test) .
Ablehnungsbereich
zweiseitig
|
T
|
>
z
1
−
α
/
2
{\displaystyle |T|>z_{1-\alpha /2}}
rechtsseitig
|
T
|
>
z
−
1
−
α
{\displaystyle |T|>z-{1-\alpha }}
linksseitig
|
T
|
<
−
z
−
1
−
α
{\displaystyle |T|<-z-{1-\alpha }}
für n < 30 oder nθ0 < 10 oder n(1-θ0 ) < 10
ist der exakte Binomialtest anzuwenden:
Testfunktion
Die Teststatistik
X
{\displaystyle X}
gibt an, wie oft das Merkmal in einer zufälligen Stichprobe vom Umfang
n
{\displaystyle n}
aufgetreten ist.
Unter der Nullhypothese
H
0
:
θ
=
θ
0
{\displaystyle H_{0}\colon \theta =\theta _{0}}
ist die Teststatistik
B
(
θ
0
,
n
)
{\displaystyle B(\theta _{0},n)}
-verteilt, das heißt
P
(
X
=
i
)
=
B
(
i
|
θ
0
,
n
)
=
(
n
i
)
θ
0
i
(
1
−
θ
0
)
n
−
i
{\displaystyle P(X=i)=B(i|\theta _{0},n)={\binom {n}{i}}\theta _{0}^{i}(1-\theta _{0})^{n-i}}
.
Ablehnungsbereich
Da die Teststatistik diskret verteilt ist, kann das vorgegebene Signifikanzniveau
α
{\displaystyle \alpha }
in der Regel nicht eingehalten werden.
Daher wird gefordert, die kritischen Werte so zu wählen, dass für ein möglichst großes exaktes Signifikanzniveau
α
ex
{\displaystyle \alpha _{\text{ex}}}
gilt
α
ex
≤
α
{\displaystyle \alpha _{\text{ex}}\leq \alpha }
.
Für den zweiseitigen Test werden daher als kritische Werte das größte
c
1
{\displaystyle c_{1}}
und das kleinste
c
2
{\displaystyle c_{2}}
bestimmt, für die gilt
∑
i
=
0
c
1
B
(
i
|
θ
0
,
n
)
≤
α
/
2
{\displaystyle \sum _{i=0}^{c_{1}}B(i|\theta _{0},n)\leq \alpha /2}
und
∑
i
=
c
2
n
B
(
i
|
θ
0
,
n
)
≤
α
/
2
{\displaystyle \sum _{i=c_{2}}^{n}B(i|\theta _{0},n)\leq \alpha /2}
.
Das exakte Signifikanzniveau ergibt sich als
α
ex
=
∑
i
=
0
c
1
B
(
i
|
θ
0
,
n
)
+
∑
i
=
c
2
n
B
(
i
|
θ
0
,
n
)
{\displaystyle \alpha _{\text{ex}}=\sum _{i=0}^{c_{1}}B(i|\theta _{0},n)+\sum _{i=c_{2}}^{n}B(i|\theta _{0},n)}
.
Für die beiden einseitigen Tests wird analog verfahren.
Test
Kritische Werte
Kritischer Bereich
Grenze(n)
zweiseitig
c
1
+
1
{\displaystyle c_{1}+1}
und
c
2
−
1
{\displaystyle c_{2}-1}
{
0
,
…
,
c
1
}
∪
{
c
2
,
…
,
n
}
{\displaystyle \{0,\dotsc ,c_{1}\}\cup \{c_{2},\dotsc ,n\}}
rechtsseitig
c
−
1
{\displaystyle c-1}
{
c
,
…
,
n
}
{\displaystyle \{c,\dotsc ,n\}}
c = kleinster Wert, für den
∑
i
=
c
n
B
(
i
|
θ
0
,
n
)
=
α
ex
≤
α
{\displaystyle \sum _{i=c}^{n}B(i|\theta _{0},n)=\alpha _{\text{ex}}\leq \alpha }
linksseitig
c
+
1
{\displaystyle c+1}
{
0
,
…
,
c
}
{\displaystyle \{0,\dotsc ,c\}}
c = größter Wert, für den
∑
i
=
0
c
B
(
i
|
θ
0
,
n
)
=
α
ex
≤
α
{\displaystyle \sum _{i=0}^{c}B(i|\theta _{0},n)=\alpha _{\text{ex}}\leq \alpha }
Test
H
0
{\displaystyle H_{0}}
H
1
{\displaystyle H_{1}}
zweiseitig
σ
2
=
σ
0
2
{\displaystyle \sigma ^{2}=\sigma _{0}^{2}\,}
σ
2
≠
σ
0
2
{\displaystyle \sigma ^{2}\neq \sigma _{0}^{2}}
rechtsseitig
σ
2
≤
σ
0
2
{\displaystyle \sigma ^{2}\leq \sigma _{0}^{2}}
σ
2
>
σ
0
2
{\displaystyle \sigma ^{2}>\sigma _{0}^{2}\,}
linksseitig
σ
2
≥
σ
0
2
{\displaystyle \sigma ^{2}\geq \sigma _{0}^{2}}
σ
2
<
σ
0
2
{\displaystyle \sigma ^{2}<\sigma _{0}^{2}\,}
1. X ist normalverteilt, μ ist unbekannt, n beliebig
Testfunktion
T
=
(
n
−
1
)
S
2
σ
0
2
=
1
σ
0
2
∑
i
=
1
n
(
X
i
−
X
¯
2
)
2
∼
χ
2
(
n
−
1
)
{\displaystyle T={\frac {(n-1)S^{2}}{\sigma _{0}^{2}}}={\frac {1}{\sigma _{0}^{2}}}\sum _{i=1}^{n}(X_{i}-{\bar {X}}^{2})^{2}\;\;\sim \chi ^{2}(n-1)}
Ablehnungsbereich
zweiseitig
T
<
χ
n
−
1
,
α
/
2
2
{\displaystyle T<\chi _{n-1,\alpha /2}^{2}}
oder
T
>
χ
n
−
1
,
1
−
α
/
2
2
{\displaystyle T>\chi _{n-1,1-\alpha /2}^{2}}
rechtsseitig
T
>
χ
n
−
1
,
1
−
α
2
{\displaystyle T>\chi _{n-1,1-\alpha }^{2}}
linksseitig
T
<
χ
n
−
1
,
α
2
{\displaystyle T<\chi _{n-1,\alpha }^{2}}
2. X ist normalverteilt, μ ist bekannt, n beliebig
Testfunktion
T
=
(
n
−
1
)
S
~
2
σ
0
2
=
1
σ
0
2
∑
i
=
1
n
(
X
i
−
μ
)
2
∼
χ
2
(
n
)
{\displaystyle T={\frac {(n-1){\tilde {S}}^{2}}{\sigma _{0}^{2}}}={\frac {1}{\sigma _{0}^{2}}}\sum _{i=1}^{n}(X_{i}-\mu )^{2}\;\;\sim \chi ^{2}(n)}
Ablehnungsbereich
zweiseitig
T
<
χ
n
,
α
/
2
2
{\displaystyle T<\chi _{n,\alpha /2}^{2}}
oder
T
>
χ
n
,
1
−
α
/
2
2
{\displaystyle T>\chi _{n,1-\alpha /2}^{2}}
rechtsseitig
T
>
χ
n
,
1
−
α
2
{\displaystyle T>\chi _{n,1-\alpha }^{2}}
linksseitig
T
<
χ
n
,
α
2
{\displaystyle T<\chi _{n,\alpha }^{2}}
Tests auf Zusammenhangs- und Assoziationsparameter
Bearbeiten
Nullhypothese
H
0
{\displaystyle H_{0}}
: Die Merkmale
X
{\displaystyle X}
und
Y
{\displaystyle Y}
sind stochastisch unabhängig.
Die Beobachtungen der Merkmale
X
{\displaystyle X}
und
Y
{\displaystyle Y}
liegen paarweise in
m
{\displaystyle m}
bzw.
r
{\displaystyle r}
Klassen vor.
Es gibt insgesamt
n
{\displaystyle n}
paarweise Beobachtungen von
X
{\displaystyle X}
und
Y
{\displaystyle Y}
, die sich auf
m
⋅
r
{\displaystyle m\cdot r}
Kategorien verteilen. Aufstellung z. B. in einer Häufigkeitstabelle:
Merkmal
Y
{\displaystyle Y}
Summe Σ
Merkmal
X
{\displaystyle X}
1
2
…
k
…
r
n j .
1
n 11
n 12
...
n 1k
...
n 1r
n 1.
2
n 21
n 22
…
n 2k
…
n 2r
n 2.
…
…
…
…
…
…
…
…
j
…
…
…
n jk
…
…
n j.
…
…
…
…
…
…
…
…
m
n m 1
n m 2
…
n mk
…
n mr
n m .
Summe Σ
n .1
n .2
…
n .k
…
n .r
n
Absolute Randhäufigkeiten
n
j
⋅
{\displaystyle n_{j\,\cdot }}
bzw.
n
⋅
k
{\displaystyle n_{\cdot \,k}}
n
j
⋅
=
∑
k
=
1
r
n
j
k
{\displaystyle n_{j\,\cdot }=\sum _{k=1}^{r}n_{jk}}
und
n
⋅
k
=
∑
j
=
1
m
n
j
k
{\displaystyle n_{\cdot \,k}=\sum _{j=1}^{m}n_{jk}}
Prüfgröße für den Unabhängigkeitstest:
χ
2
=
∑
j
=
1
m
∑
k
=
1
r
(
n
j
k
−
n
j
k
∗
)
2
n
j
k
∗
.
{\displaystyle \chi ^{2}=\sum _{j=1}^{m}\sum _{k=1}^{r}{\frac {(n_{jk}-n_{jk}^{*})^{2}}{n_{jk}^{*}}}.}
Mit :
n
j
k
∗
=
n
j
⋅
⋅
n
⋅
k
n
,
{\displaystyle n_{jk}^{*}={\frac {n_{j\,\cdot }\cdot n_{\cdot \,k}}{n}},}
H
0
{\displaystyle H_{0}}
wird abgelehnt, wenn
χ
2
>
χ
2
(
1
−
α
;
(
m
−
1
)
(
r
−
1
)
)
{\displaystyle \chi ^{2}>\chi ^{2}(1-\alpha ;(m-1)(r-1))}
ist.
Chi-Quadrat-Anpassungs- oder Verteilungstest
Bearbeiten
Die Wahrscheinlichkeiten eines Merkmals
X
{\displaystyle X}
seien in der Grundgesamtheit unbekannt.
Nullhypothese:
H
0
{\displaystyle H_{0}\,}
: Das Merkmal
X
{\displaystyle X}
besitzt die Wahrscheinlichkeitsverteilung
F
0
(
x
)
{\displaystyle F_{0}(x)}
Für
n
{\displaystyle n}
unabhängige Beobachtungen
x
1
,
…
,
x
n
{\displaystyle x_{1},\dots ,x_{n}}
des Merkmals
X
{\displaystyle X}
wird die Zahl
der Beobachtungen in der
j
{\displaystyle j}
-ten Klasse ist die beobachtete Häufigkeit
N
j
{\displaystyle N_{j}}
.
Im Vergleich dazu wird die hypothetische Verteilung bestimmt aufgrund der Wahrscheinlichkeit
p
0
j
{\displaystyle p_{0j}}
,
dass eine Ausprägung von
X
{\displaystyle X}
in die Kategorie
j
{\displaystyle j}
fällt. Die unter
H
0
{\displaystyle H_{0}}
zu erwartende Häufigkeit ist:
n
0
j
=
p
0
j
⋅
n
{\displaystyle n_{0j}=p_{0j}\cdot n}
Die Prüfgröße (Größe der Abweichung)
χ
2
=
∑
j
=
1
m
(
N
j
−
n
0
j
)
2
n
0
j
{\displaystyle \chi ^{2}=\sum _{j=1}^{m}{\frac {(N_{j}-n_{0j})^{2}}{n_{0j}}}}
ist bei ausreichend großen
N
j
{\displaystyle N_{j}}
annähernd chi-Quadrat-verteilt mit
m
−
1
{\displaystyle m-1}
Freiheitsgraden.
H
0
{\displaystyle H_{0}}
wird abgelehnt, wenn
χ
2
>
χ
(
1
−
α
;
m
−
1
)
2
{\displaystyle \chi ^{2}>\chi _{(1-\alpha ;m-1)}^{2}}
gilt.
Test auf Übereinstimmung zweier Wahrscheinlichkeitsverteilungen.
Man betrachtet ein statistisches Merkmal X, dessen Verteilung in der Grundgesamtheit unbekannt ist.
H
0
:
F
X
(
x
)
=
F
0
(
x
)
{\displaystyle \!\,H_{0}:F_{X}(x)=F_{0}(x)}
(Die Zufallsvariable X besitzt die Wahrscheinlichkeitsverteilung F0 .)
H
1
:
F
X
(
x
)
≠
F
0
(
x
)
{\displaystyle H_{1}:F_{X}(x)\neq F_{0}(x)}
(Die Zufallsvariable X besitzt eine andere Wahrscheinlichkeitsverteilung als F0 .)
Der Kolmogorow-Smirnow-Test vergleicht die empirische Verteilungsfunktion
F
n
{\displaystyle F_{n}}
mit
F
0
{\displaystyle F_{0}}
mittels der Teststatistik
d
n
=
‖
F
n
−
F
0
‖
=
sup
x
|
F
n
(
x
)
−
F
0
(
x
)
|
,
{\displaystyle d_{n}=\|F_{n}-F_{0}\|=\sup _{x}|F_{n}(x)-F_{0}(x)|,}
(sup: Supremum)
Die Teststatistik ist unabhängig von der hypothetischen Verteilung F0 .
Ist der Wert der Teststatistik größer als der entsprechende tabellierte kritische Wert, so wird die Nullhypothese verworfen.
Von einer reellen Zufallsvariablen
X
{\displaystyle X}
liegen
n
{\displaystyle n}
aufsteigend sortierte Beobachtungswerte
x
i
{\displaystyle x_{i}}
(
i
=
1
,
…
,
n
{\displaystyle i=1,\dotsc ,n}
) vor.
Von diesen Beobachtungen wird die relative Summenhäufigkeit
S
(
x
i
)
{\displaystyle S(x_{i})}
mit der entsprechenden hypothetischen
Verteilung der Grundgesamtheit F0 (xi ) verglichen. Voraussetzung:
F
0
{\displaystyle F_{0}}
ist stetig.
Für jedes
i
=
1
,
…
,
n
{\displaystyle i=1,\dotsc ,n}
werden die absoluten Differenzen
d
o
i
=
|
S
(
x
i
)
−
F
0
(
x
i
)
|
{\displaystyle d_{oi}=|S(x_{i})-F_{0}(x_{i})|~}
und :
d
u
i
=
|
S
(
x
i
−
1
)
−
F
0
(
x
i
)
|
{\displaystyle d_{ui}=|S(x_{i-1})-F_{0}(x_{i})|~}
berechnet, wobei
S
(
x
0
)
:=
0
{\displaystyle S(x_{0}):=0}
gesetzt wird. Wenn die größte Differenz
d
max
{\displaystyle d_{\max }}
aus allen Differenzen
d
o
i
{\displaystyle d_{oi}}
,
d
u
i
{\displaystyle d_{ui}}
einen kritischen Wert
d
α
{\displaystyle d_{\alpha }}
übersteigt, wird die Hypothese abgelehnt.
Bis n=40 greift man auf Tabellen zurück (s. Anhang). Für größere
n
{\displaystyle n}
werden sie über
d
α
=
ln
(
2
α
)
2
n
{\displaystyle d_{\alpha }={\frac {\sqrt {\ln \left({\frac {2}{\alpha }}\right)}}{\sqrt {2n}}}}
angenähert.
Liegt nun zusätzlich zur Zufallsvariablen
X
{\displaystyle X}
eine entsprechende Zufallsvariable
Y
{\displaystyle Y}
vor (mit
m
{\displaystyle m}
geordneten Werten
y
i
{\displaystyle y_{i}}
),
so kann durch den Zweistichprobentest überprüft werden, ob
X
{\displaystyle X}
und
Y
{\displaystyle Y}
derselben Verteilungsfunktion folgen.
Von beiden Beobachtungen werden die die Differenzen der relativen Summenfunktionen
S
X
(
x
i
)
{\displaystyle S_{X}(x_{i})}
bzw.
S
Y
(
y
i
)
{\displaystyle S_{Y}(y_{i})}
ermittelt:
d
(
z
)
=
|
S
X
(
z
)
−
S
Y
(
z
)
|
{\displaystyle d(z)=|S_{X}(z)-S_{Y}(z)|~}
und :
d
m
a
x
=
sup
z
d
(
z
)
{\displaystyle d_{max}=\sup _{z}d(z)~}
.
Die Nullhypothese wird abgelehnt, falls
d
m
a
x
{\displaystyle d_{max}}
den kritischen Wert
d
k
r
i
t
(
α
,
n
,
m
)
{\displaystyle d_{krit}(\alpha ,n,m)}
überschreitet.
Für kleine Werte von
n
{\displaystyle n}
und
m
{\displaystyle m}
greift man auf Tabellen zurück.
Für große Werte von n und m wird die Nullhypothese abgelehnt, falls
n
m
n
+
m
d
m
a
x
>
K
α
{\displaystyle {\sqrt {\frac {nm}{n+m}}}d_{max}>K_{\alpha }}
,
wobei
K
α
{\displaystyle K_{\alpha }}
für große
n
{\displaystyle n}
und
m
{\displaystyle m}
näherungsweise als
K
α
=
ln
(
2
α
)
2
{\displaystyle K_{\alpha }={\sqrt {\frac {\ln \left({\frac {2}{\alpha }}\right)}{2}}}}
berechnet werden kann.
Man untersucht man den Einfluss einer unabhängigen Variable (Faktor) mit k verschiedenen Stufen (Gruppen) auf die Ausprägungen einer Zufallsvariablen.
Dazu werden die k Mittelwerte der Ausprägungen für die Gruppen miteinander verglichen, und zwar vergleicht man die Varianz zwischen den Gruppen mit der Varianz innerhalb der Gruppen.
Weil sich die totale Varianz aus den zwei genannten Komponenten zusammensetzt, spricht man von Varianzanalyse.
Die einfaktorielle ANOVA ist die Verallgemeinerung des t-Tests bei mehr als zwei Gruppen. Für k =2 ist sie äquivalent mit dem t-Test.
Es sei
μ
i
{\displaystyle \mu _{i}}
der Erwartungswert der abhängigen Variable in der i . Gruppe.
H
0
:
μ
1
=
μ
2
=
.
.
.
=
μ
k
{\displaystyle \!H_{0}:\mu _{1}=\mu _{2}=...=\mu _{k}}
(Es besteht kein Unterschied zwischen den Erwartungswerten der Gruppen.)
H
1
:
∃
i
,
j
:
μ
i
≠
μ
j
{\displaystyle \!H_{1}:\exists i,j:\ \mu _{i}\neq \mu _{j}}
(Es besteht zwischen mindestens zwei Erwartungswerten ein Unterschied.)
→ Wir wissen dann nur mit einer bestimmten Wahrscheinlichkeit, dass mindestens zwei Ausprägungen einen bedeutsamen Unterschied aufweisen.
Effektdarstellung :
X
i
j
=
μ
+
α
i
+
ε
i
j
,
i
=
1
,
…
,
k
,
j
=
1
,
…
,
n
i
.
{\displaystyle X_{ij}=\mu +\alpha _{i}+\varepsilon _{ij},\quad i=1,\dots ,k,\ j=1,\dots ,n_{i}.}
Darin sind:
Xij : Zielvariable; annahmegemäß in den Gruppen normalverteilt
k : Anzahl der Faktorstufen des betrachteten Faktors
ni : Stichprobenumfänge für die einzelnen Faktorstufen
μ: arithmetisches Mittel der Erwartungswerte in den Gruppen
αi : Effekt der i-ten Faktorstufe
εij : Störvariablen, unabhängig und normalverteilt mit Erwartungswert 0 und gleicher (unbekannter) Varianz σ2 .
Erwartungswert in der i . Gruppe:
μ
i
=
μ
+
α
i
{\displaystyle \mu _{i}=\mu +\alpha _{i}}
∑
i
=
1
k
n
i
α
i
=
0.
{\displaystyle \sum _{i=1}^{k}n_{i}\alpha _{i}=0.}
Betrachtung der Quadratsummen (Variabiliät)
Die gesamte Variabilität QST (gesamte quadratische Abweichung vom Mittelwert) lässt sich in zwei Teile zerlegen:
Q
S
T
=
∑
(
X
i
j
−
X
¯
¯
)
2
=
Q
S
A
+
Q
S
E
{\displaystyle QST\,=\sum (X_{ij}-{\overline {\overline {X}}})^{2}=QSA+QSE}
Der erste Teil QSA (Gruppenzugehörigkeit) entspricht der ('Inter-')Variabilität zwischen den Gruppen.
Q
S
A
=
∑
i
n
i
(
X
¯
i
−
X
¯
¯
)
2
,
{\displaystyle \!\,QSA=\sum _{i}n_{i}({\overline {X}}_{i}-{\overline {\overline {X}}})^{2},}
Der Rest QSE entspricht der Variabilität innerhalb der Gruppen (gesamte 'Intra'-Abweichung von den Mittelwerten in den Gruppen, der 'Zufall'):
Q
S
E
=
∑
i
,
j
(
X
i
j
−
X
i
¯
)
2
.
{\displaystyle \!\,QSE=\sum _{i,j}(X_{ij}-{\overline {X_{i}}})^{2}.}
Die zwei Quadratsummen QSA und QSE sind stochastisch unabhängig.
Im Fall von k Gruppen mit gleichem Umfang b=n/k gilt unter der Nullhypothese außerdem:
Q
S
A
/
σ
2
{\displaystyle QSA/\sigma ^{2}}
folgt einer Chi-Quadrat-Verteilung mit k -1 Freiheitsgraden,
und
Q
S
E
/
σ
2
{\displaystyle QSE/\sigma ^{2}}
folgt einer Chi-Quadrat-Verteilung mit n -k Freiheitsgraden.
mittlere Quadratsummen :
M
Q
S
A
=
1
k
−
1
Q
S
A
,
{\displaystyle MQSA={\frac {1}{k-1}}QSA,}
und :
M
Q
S
E
=
1
n
−
k
Q
S
E
.
{\displaystyle MQSE={\frac {1}{n-k}}QSE.}
Prüfgröße :
F
=
M
Q
S
A
M
Q
S
E
.
{\displaystyle F={\frac {MQSA}{MQSE}}.}
Im Falle Gruppen gleicher Größe ist F unter der Nullhypothese F-verteilt
mit
k
−
1
{\displaystyle k-1}
Freiheitsgraden im Zähler und
k
⋅
(
b
−
1
)
{\displaystyle k\cdot (b-1)}
Freiheitsgraden im Nenner.
Wenn die Prüfgröße
F
=
M
Q
S
A
M
Q
S
E
=
1
k
−
1
⋅
b
⋅
∑
i
(
X
¯
i
−
X
¯
¯
)
2
1
k
⋅
(
b
−
1
)
⋅
∑
i
,
j
(
X
i
j
−
X
i
¯
)
2
.
{\displaystyle F={\frac {MQSA}{MQSE}}={\frac {\displaystyle {\frac {1}{k-1}}\cdot b\cdot \sum \limits _{i}({\overline {X}}_{i}-{\overline {\overline {X}}})^{2}}{\displaystyle {\frac {1}{k\cdot (b-1)}}\cdot \sum _{i,j}(X_{ij}-{\overline {X_{i}}})^{2}}}.}
signifikant (d.h.
F
>
F
k
r
i
t
(
α
,
k
−
1
,
k
⋅
(
b
−
1
)
)
{\displaystyle F>F_{krit}(\alpha ,k-1,k\cdot (b-1))}
wird, unterscheiden sich mindestens zwei Faktoren ('Gruppen') voneinander.
In Post-Hoc-Tests kann dann berechnet werden, zwischen welchen einzelnen Gruppen der Unterschied liegt.
Mögliche Aufteilung einer Zeitreihe in Komponenten:
Trend Q
Konjunkturelle Schwankung K
Saisonale Schwankung S
Restschwankung r
Bei Unabhängigkeit dieser Komponenten kann man ein additives Modell annehmen:
y
=
Q
+
K
+
S
+
r
{\displaystyle y=Q+K+S+r}
Nehmen beispielsweise zyklische Schwankungen mit steigendem Trend zu, könnte ein multiplikatives Modell
y
t
=
Q
t
⋅
K
t
⋅
r
t
{\displaystyle y_{t}=Q_{t}\cdot K_{t}\cdot r_{t}}
angebracht sein. Variablentransformation durch Logarithmieren
log
y
t
=
log
Q
t
+
log
S
t
+
log
r
t
{\displaystyle \log y_{t}=\log Q_{t}+\log S_{t}+\log r_{t}}
‘‘‘Regressionsmodell‘‘‘
y
^
t
=
a
+
b
t
{\displaystyle {\hat {y}}_{t}=a+bt}
bzw.
y
t
=
a
+
b
t
+
d
t
{\displaystyle y_{t}=a+bt+d_{t}}
(
t
=
1
,
2
,
…
,
T
;
y
t
=
y
1
,
y
2
,
…
,
y
T
)
{\displaystyle (t=1,2,\dots ,T;y_{t}=y_{1},y_{2},\dots ,y_{T})}
mit den Lösungen
b
=
∑
t
=
1
T
(
t
−
t
¯
)
(
y
t
−
y
¯
)
∑
t
=
1
T
(
t
−
t
¯
)
2
{\displaystyle b={\frac {\sum _{t=1}^{T}(t-{\overline {t}})(y_{t}-{\overline {y}})}{\sum _{t=1}^{T}(t-{\overline {t}})^{2}}}}
=
∑
t
=
1
T
t
⋅
y
t
−
T
⋅
t
¯
⋅
y
¯
∑
t
=
1
T
t
2
−
T
⋅
t
¯
2
{\displaystyle ={\frac {\sum _{t=1}^{T}t\cdot y_{t}-T\cdot {\overline {t}}\cdot {\overline {y}}}{\sum _{t=1}^{T}t^{2}-T\cdot {\overline {t}}^{2}}}}
=
∑
t
=
1
T
t
y
t
−
T
(
T
+
1
)
2
y
¯
1
12
(
T
3
−
T
)
{\displaystyle ={\frac {\sum _{t=1}^{T}ty_{t}-{\frac {T(T+1)}{2}}{\overline {y}}}{{\frac {1}{12}}(T^{3}-T)}}}
und
a
=
y
¯
−
b
⋅
t
¯
{\displaystyle a={\overline {y}}-b\cdot {\overline {t}}}
=
y
¯
−
b
⋅
T
+
1
2
{\displaystyle ={\overline {y}}-b\cdot {\frac {T+1}{2}}}
.
Die Trendwerte Qt sind dann
Q
t
=
y
^
t
=
a
+
b
t
{\displaystyle Q_{t}={\hat {y}}_{t}=a+bt}
.
Nichtlinearer Trendverlauf: Lösung über Variablentransformation oder Anwendung eines nichtlinearen Regressionsansatzes
Additives Modell
y
t
=
Q
t
+
S
t
+
r
t
{\displaystyle y_{t}=Q_{t}+S_{t}+r_{t}}
Nach Schätzung der Trendkomponente Qt bleibt noch die Abweichung
d
t
=
y
t
−
Q
t
{\displaystyle d_{t}=y_{t}-Q_{t}}
und
d
t
=
S
t
+
r
t
{\displaystyle d_{t}=S_{t}+r_{t}}
dt : trendbereinigter Zeitreihenwert
Bestimmung der saisonalen Komponente St über Fourieranalyse oder (einfacher)
Bildung des arithmetischen Durchschnitts aller Werte dt , die die gleiche Saison betreffen,
als Schätzung für die saisonale Komponente. Dann bleibt die nichterklärte Restschwankung
r
t
=
y
t
−
Q
t
−
S
t
{\displaystyle r_{t}=y_{t}-Q_{t}-S_{t}}
Prognose für den Zeitpunkt T+k (mit St als Wert in der Saison T+k)
y
^
T
+
k
=
Q
T
+
k
+
S
T
+
k
,
{\displaystyle {\hat {y}}_{T+k}=Q_{T+k}+S_{T+k},}
Schätzung der glatten Komponente mit gleitenden Mittelwerten
Bearbeiten
Lässt sich die Trendkomponente des Zeitreihenmodells offensichtlich durch keine funktionale lineare oder
nichtlineare Beziehung darstellen, kann man eine glatte Komponente mit Hilfe gleitender Mittelwerte bestimmen.
Beispiel: Mittelwert dritter Ordnung:
Y
k
=
1
3
⋅
(
Y
k
−
1
+
Y
k
+
Y
k
+
1
)
=
1
3
∑
i
=
k
−
1
k
+
1
Y
i
{\displaystyle Y_{k}={\frac {1}{3}}\cdot (Y_{k-1}+Y_{k}+Y_{k+1})={\frac {1}{3}}\sum _{i=k-1}^{k+1}Y_{i}}
Die Ordnung des Mittelwerts sollte so gewählt werden, daß möglichst genau eine Periode umfasst wird.
Zur Prognose über den Beobachtungszeitraum hinaus sind gleitende Mittelwerte bedingt geeignet,
da die Randwerte der Zeitreihe nicht geschätzt werden.
Beispiel: Mittelwert dritter Ordnung mit z.B.
w
1
=
1
4
,
w
2
=
1
2
,
w
1
=
1
2
,
∑
i
w
i
=
1
{\displaystyle w_{1}={\frac {1}{4}},w_{2}={\frac {1}{2}},w_{1}={\frac {1}{2}},\sum _{i}w_{i}=1}
Y
k
=
w
1
⋅
Y
k
−
1
+
w
2
⋅
Y
k
+
w
3
⋅
Y
k
+
1
{\displaystyle Y_{k}=w_{1}\cdot Y_{k-1}+w_{2}\cdot Y_{k}+w_{3}\cdot Y_{k+1}}
Gewichtung durch den Glättungsfaktor
α
{\displaystyle \alpha }
mit
0
≤
α
≤
1
{\displaystyle 0\leq \alpha \leq 1}
:
Geglätteter Schätzwert y*t als gewichteter Durchschnitt aus dem aktuellen Zeitreihenwert yt
und dem Schätzwert der Vorperiode y*t-1 (y*0 geeignet wählen):
y
t
∗
=
α
⋅
y
t
+
(
1
−
α
)
⋅
y
t
−
1
∗
.
{\displaystyle y_{t}^{*}=\alpha \cdot y_{t}+(1-\alpha )\cdot y_{t-1}^{*}\;.}
Auflösung der Rekursivität:
y
t
∗
=
α
y
t
+
α
(
1
−
α
)
y
t
−
1
+
α
(
1
−
α
)
2
y
t
−
2
+
.
.
.
+
α
(
1
−
α
)
t
−
1
y
1
+
(
1
−
α
)
t
y
0
.
{\displaystyle y_{t}^{*}=\alpha y_{t}+\alpha (1-\alpha )y_{t-1}+\alpha (1-\alpha )^{2}y_{t-2}+...+\alpha (1-\alpha )^{t-1}y_{1}+(1-\alpha )^{t}y_{0}\;.}
Für die Wahl des Glättungsfaktors wird häufig 0,2 bis 0,3 empfohlen. Man kann aber auch mit Hilfe der Regressionsanalyse den Glättungsfaktor schätzen.
Exponentielle Glättung bei trendbehafteten Werten
Bearbeiten
Bei Trend werden die Zeitreihenwerte systematisch unter- bzw. überschätzt. Abhilfe bieten ggf. gleitende Durchschnitte zweiter Ordung.
Die bereits einmal geglätteten Werte erneut einer Glättung unterzogen. Man erhält den Schätzwert
y
∗
∗
{\displaystyle y^{**}}
, der sich analog zu oben berechnet aus
y
t
∗
∗
=
α
⋅
y
t
∗
+
(
1
−
α
)
⋅
y
t
−
1
∗
∗
{\displaystyle y_{t}^{**}=\alpha \cdot y_{t}^{*}+(1-\alpha )\cdot y_{t-1}^{**}}
Für einen brauchbaren Prognosewert für Periode t+1 muss man dann bestimmen
y
^
t
+
1
=
2
⋅
y
t
∗
−
y
t
−
1
∗
∗
{\displaystyle {\widehat {y}}_{t+1}=2\cdot y_{t}^{*}-y_{t-1}^{**}}
.
Symbol
Verwendung
A,B
Ereignisse
Ω = {A,B,C...}
Ereignisraum
|A|
Anzahl der Ereignisse A
P(A)
Wahrscheinlichkeit für das Eintreten von A
∪ ∩
Und-Verknüpfung (Konjunktion) / Oder-Verknüpfung (Disjunktion)
P(A | B)
Bedingte Wahrscheinlichkeit (A wenn B)
E(X)
Erwartungswert von X
f(X)
Wahrscheinlichkeitsfunktion
F(X)
Verteilungsfunktion
N
Grundgesamtheit
n
Stichprobe
X
Zufallsvariable
V
a
r
(
X
)
{\displaystyle Var(X)}
Varianz von X
Θ
Anteilswert einer Grundgesamtheit
Symbol
Verwendung
b
(
x
|
n
;
θ
)
{\displaystyle b(x|n;\theta )}
Binomialverteilung
F(m,n)
Fisherverteilung
h
(
x
|
N
;
M
;
n
)
{\displaystyle h(x|N;M;n)}
Hypergeometrische Verteilung
p
(
x
|
λ
)
{\displaystyle p(x|\lambda )}
Poissonverteilung
N
(
μ
,
σ
2
)
{\displaystyle N(\mu ,\sigma ^{2})}
Normalverteilung
t(n)
t- (Student-) Verteilung
ϕ
x
(
z
)
{\displaystyle \phi _{x}(z)}
Standardnormalverteilung
Binomialverteilung (Wahrscheinlichkeitsfunktion)
n
x
p = 0,01
... 0,05
0,1
0,2
0,25
0,3
0,5
2
0
0,9801
0,9025
0,81
0,64
0,5625
0,49
0,25
1
0,0198
0,095
0,18
0,32
0,375
0,42
0,5
2
0,0001
0,0025
0,01
0,04
0,0625
0,09
0,25
3
0
0,9703
0,8574
0,729
0,512
0,4219
0,343
0,125
1
0,0294
0,1354
0,243
0,384
0,4219
0,441
0,375
2
0,0003
0,0071
0,027
0,0960
0,1406
0,189
0,375
3
0
0,0001
0,001
0,008
0,0156
0,027
0,125
4
0
0,9606
0,8145
0,6561
0,4096
0,3164
0,2401
0,0625
1
0,0388
0,1715
0,2916
0,4096
0,4219
0,4116
0,25
2
0,0006
0,0135
0,0486
0,1536
0,2109
0,2646
0,375
3
0
0,0005
0,0036
0,0256
0,0469
0,0756
0,25
4
0
0
0,0001
0,0016
0,0039
0,0081
0,0625
5
0
0,951
0,7738
0,5905
0,3277
0,2373
0,1681
0,0313
1
0,048
0,2036
0,3281
0,4096
0,3955
0,3602
0,1563
2
0,001
0,0214
0,0729
0,2048
0,2637
0,3087
0,3125
3
0
0,0011
0,0081
0,0512
0,0879
0,1323
0,3125
4
0
0
0,0005
0,0064
0,0146
0,0284
0,1563
5
0
0
0
0,0003
0,001
0,0024
0,0313
6
0
0,9415
0,7351
0,5314
0,2621
0,178
0,1176
0,0156
1
0,0571
0,2321
0,3543
0,3932
0,356
0,3025
0,0938
2
0,0014
0,0305
0,0984
0,2458
0,2966
0,3241
0,2344
3
0
0,0021
0,0146
0,0819
0,1318
0,1852
0,3125
4
0
0,0001
0,0012
0,0154
0,033
0,0595
0,2344
5
0
0
0,0001
0,0015
0,0044
0,0102
0,0938
6
0
0
0
0,0001
0,0002
0,0007
0,0156
7
0
0,9321
0,6983
0,4783
0,2097
0,1335
0,0824
0,0078
1
0,0659
0,2573
0,372
0,367
0,3115
0,2471
0,0547
2
0,002
0,0406
0,124
0,2753
0,3115
0,3177
0,1641
3
0
0,0036
0,023
0,1147
0,173
0,2269
0,2734
4
0
0,0002
0,0026
0,0287
0,0577
0,0972
0,2734
5
0
0
0,0002
0,0043
0,0115
0,025
0,1641
6
0
0
0
0,0004
0,0013
0,0036
0,0547
7
0
0
0
0
0,0001
0,0002
0,0078
Binomialverteilung (Wahrscheinlichkeitsfunktion)
n
x
p = 0,01
... 0,05
0,1
0,2
0,25
0,3
0,5
8
0
0,9227
0,6634
0,4305
0,1678
0,1001
0,0576
0,0039
1
0,0746
0,2793
0,3826
0,3355
0,267
0,1977
0,0313
2
0,0026
0,0515
0,1488
0,2936
0,3115
0,2965
0,1094
3
0,0001
0,0054
0,0331
0,1468
0,2076
0,2541
0,2188
4
0
0,0004
0,0046
0,0459
0,0865
0,1361
0,2734
5
0
0
0,0004
0,0092
0,0231
0,0467
0,2188
6
0
0
0
0,0011
0,0038
0,01
0,1094
7
0
0
0
0,0001
0,0004
0,0012
0,0313
8
0
0
0
0
0
0,0001
0,0039
9
0
0,9135
0,6302
0,3874
0,1342
0,0751
0,0404
0,002
1
0,083
0,2985
0,3874
0,302
0,2253
0,1556
0,0176
2
0,0034
0,0629
0,1722
0,302
0,3003
0,2668
0,0703
3
0,0001
0,0077
0,0446
0,1762
0,2336
0,2668
0,1641
4
0
0,0006
0,0074
0,0661
0,1168
0,1715
0,2461
5
0
0
0,0008
0,0165
0,0389
0,0735
0,2461
6
0
0
0,0001
0,0028
0,0087
0,021
0,1641
7
0
0
0
0,0003
0,0012
0,0039
0,0703
8
0
0
0
0
0,0001
0,0004
0,0176
9
0
0
0
0
0
0
0,002
10
0
0,9044
0,5987
0,3487
0,1074
0,0563
0,0282
0,001
1
0,0914
0,3151
0,3874
0,2684
0,1877
0,1211
0,0098
2
0,0042
0,0746
0,1937
0,302
0,2816
0,2335
0,0439
3
0,0001
0,0105
0,0574
0,2013
0,2503
0,2668
0,1172
4
0
0,001
0,0112
0,0881
0,146
0,2001
0,2051
5
0
0,0001
0,0015
0,0264
0,0584
0,1029
0,2461
6
0
0
0,0001
0,0055
0,0162
0,0368
0,2051
7
0
0
0
0,0008
0,0031
0,009
0,1172
8
0
0
0
0,0001
0,0004
0,0014
0,0439
9
0
0
0
0
0
0,0001
0,0098
10
0
0
0
0
0
0
0,001
Weitere Werte können mittels =BINOMVERT(x;n;p;0) bei Tabellenkalkulationsprogrammen
oder der R-Funktion dbinom(x, n , p) bestimmt werden
Standard-Normalverteilung (Verteilungsfunktion)
ϕ
x
(
z
)
{\displaystyle \phi _{x}(z)}
z
0,00
0,01
0,02
0,03
0,04
0,05
0,06
0,07
0,08
0,09
0,0
0,5
0,504
0,508
0,512
0,516
0,5199
0,5239
0,5279
0,5319
0,5359
0,1
0,5398
0,5438
0,5478
0,5517
0,5557
0,5596
0,5636
0,5675
0,5714
0,5753
0,2
0,5793
0,5832
0,5871
0,591
0,5948
0,5987
0,6026
0,6064
0,6103
0,6141
0,3
0,6179
0,6217
0,6255
0,6293
0,6331
0,6368
0,6406
0,6443
0,648
0,6517
0,4
0,6554
0,6591
0,6628
0,6664
0,67
0,6736
0,6772
0,6808
0,6844
0,6879
0,5
0,6915
0,695
0,6985
0,7019
0,7054
0,7088
0,7123
0,7157
0,719
0,7224
0,6
0,7257
0,7291
0,7324
0,7357
0,7389
0,7422
0,7454
0,7486
0,7517
0,7549
0,7
0,758
0,7611
0,7642
0,7673
0,7704
0,7734
0,7764
0,7794
0,7823
0,7852
0,8
0,7881
0,791
0,7939
0,7967
0,7995
0,8023
0,8051
0,8078
0,8106
0,8133
0,9
0,8159
0,8186
0,8212
0,8238
0,8264
0,8289
0,8315
0,834
0,8365
0,8389
1,0
0,8413
0,8438
0,8461
0,8485
0,8508
0,8531
0,8554
0,8577
0,8599
0,8621
1,1
0,8643
0,8665
0,8686
0,8708
0,8729
0,8749
0,877
0,879
0,881
0,883
1,2
0,8849
0,8869
0,8888
0,8907
0,8925
0,8944
0,8962
0,898
0,8997
0,9015
1,3
0,9032
0,9049
0,9066
0,9082
0,9099
0,9115
0,9131
0,9147
0,9162
0,9177
1,4
0,9192
0,9207
0,9222
0,9236
0,9251
0,9265
0,9279
0,9292
0,9306
0,9319
1,5
0,9332
0,9345
0,9357
0,937
0,9382
0,9394
0,9406
0,9418
0,9429
0,9441
1,6
0,9452
0,9463
0,9474
0,9484
0,9495
0,9505
0,9515
0,9525
0,9535
0,9545
1,7
0,9554
0,9564
0,9573
0,9582
0,9591
0,9599
0,9608
0,9616
0,9625
0,9633
1,8
0,9641
0,9649
0,9656
0,9664
0,9671
0,9678
0,9686
0,9693
0,9699
0,9706
1,9
0,9713
0,9719
0,9726
0,9732
0,9738
0,9744
0,975
0,9756
0,9761
0,9767
2,0
0,9772
0,9778
0,9783
0,9788
0,9793
0,9798
0,9803
0,9808
0,9812
0,9817
2,1
0,9821
0,9826
0,983
0,9834
0,9838
0,9842
0,9846
0,985
0,9854
0,9857
2,2
0,9861
0,9864
0,9868
0,9871
0,9875
0,9878
0,9881
0,9884
0,9887
0,989
2,3
0,9893
0,9896
0,9898
0,9901
0,9904
0,9906
0,9909
0,9911
0,9913
0,9916
2,4
0,9918
0,992
0,9922
0,9925
0,9927
0,9929
0,9931
0,9932
0,9934
0,9936
2,5
0,9938
0,994
0,9941
0,9943
0,9945
0,9946
0,9948
0,9949
0,9951
0,9952
2,6
0,9953
0,9955
0,9956
0,9957
0,9959
0,996
0,9961
0,9962
0,9963
0,9964
2,7
0,9965
0,9966
0,9967
0,9968
0,9969
0,997
0,9971
0,9972
0,9973
0,9974
2,8
0,9974
0,9975
0,9976
0,9977
0,9977
0,9978
0,9979
0,9979
0,998
0,9981
2,9
0,9981
0,9982
0,9982
0,9983
0,9984
0,9984
0,9985
0,9985
0,9986
0,9986
3,0
0,9987
0,9987
0,9987
0,9988
0,9988
0,9989
0,9989
0,9989
0,999
0,999
3,1
0,999
0,9991
0,9991
0,9991
0,9992
0,9992
0,9992
0,9992
0,9993
0,9993
3,2
0,9993
0,9993
0,9994
0,9994
0,9994
0,9994
0,9994
0,9995
0,9995
0,9995
3,3
0,9995
0,9995
0,9995
0,9996
0,9996
0,9996
0,9996
0,9996
0,9996
0,9997
3,4
0,9997
0,9997
0,9997
0,9997
0,9997
0,9997
0,9997
0,9997
0,9997
0,9998
3,5
0,9998
0,9998
0,9998
0,9998
0,9998
0,9998
0,9998
0,9998
0,9998
0,9998
3,6
0,9998
0,9998
0,9999
0,9999
0,9999
0,9999
0,9999
0,9999
0,9999
0,9999
0,00
0,01
0,02
0,03
0,04
0,05
0,06
0,07
0,08
0,09
Zur Bildung von z ist der Wert von linker Spalte und oberer Zeile zu addieren.
Ablesebeispiel:
ϕ
x
(
1
,
75
)
=
0
,
9599
{\displaystyle \phi _{x}(1,75)=0,9599}
weitere Werte: =NORM.S.VERT(z;WAHR) bzw. (R-Aufruf ): pnorm(z)
χ
2
{\displaystyle \chi ^{2}}
-Verteilung (Quantile)
n
p = 0,005
... 0,01
... 0,025
0,05
0,1
0,5
0,9
0,95
0,975
0,99
0,995
1
0,000
0,000
0,001
0,004
0,016
0,455
2,706
3,841
5,024
6,635
7,879
2
0,010
0,020
0,051
0,103
0,211
1,386
4,605
5,991
7,378
9,21
10,597
3
0,072
0,115
0,216
0,352
0,584
2,366
6,251
7,815
9,348
11,345
12,838
4
0,207
0,297
0,484
0,711
1,064
3,357
7,779
9,488
11,143
13,277
14,86
5
0,412
0,554
0,831
1,145
1,61
4,351
9,236
11,07
12,833
15,086
16,75
6
0,676
0,872
1,237
1,635
2,204
5,348
10,645
12,592
14,449
16,812
18,548
7
0,989
1,239
1,69
2,167
2,833
6,346
12,017
14,067
16,013
18,475
20,278
8
1,344
1,646
2,18
2,733
3,49
7,344
13,362
15,507
17,535
20,09
21,955
9
1,735
2,088
2,7
3,325
4,168
8,343
14,684
16,919
19,023
21,666
23,589
10
2,156
2,558
3,247
3,94
4,865
9,342
15,987
18,307
20,483
23,209
25,188
11
2,603
3,053
3,816
4,575
5,578
10,341
17,275
19,675
21,92
24,725
26,757
12
3,074
3,571
4,404
5,226
6,304
11,34
18,549
21,026
23,337
26,217
28,3
13
3,565
4,107
5,009
5,892
7,042
12,34
19,812
22,362
24,736
27,688
29,819
14
4,075
4,66
5,629
6,571
7,79
13,339
21,064
23,685
26,119
29,141
31,319
15
4,601
5,229
6,262
7,261
8,547
14,339
22,307
24,996
27,488
30,578
32,801
16
5,142
5,812
6,908
7,962
9,312
15,338
23,542
26,296
28,845
32
34,267
17
5,697
6,408
7,564
8,672
10,085
16,338
24,769
27,587
30,191
33,409
35,718
18
6,265
7,015
8,231
9,39
10,865
17,338
25,989
28,869
31,526
34,805
37,156
19
6,844
7,633
8,907
10,117
11,651
18,338
27,204
30,144
32,852
36,191
38,582
20
7,434
8,26
9,591
10,851
12,443
19,337
28,412
31,41
34,17
37,566
39,997
21
8,034
8,897
10,283
11,591
13,24
20,337
29,615
32,671
35,479
38,932
41,401
22
8,643
9,542
10,982
12,338
14,041
21,337
30,813
33,924
36,781
40,289
42,796
23
9,26
10,196
11,689
13,091
14,848
22,337
32,007
35,172
38,076
41,638
44,181
24
9,886
10,856
12,401
13,848
15,659
23,337
33,196
36,415
39,364
42,98
45,559
25
10,52
11,524
13,12
14,611
16,473
24,337
34,382
37,652
40,646
44,314
46,928
26
11,16
12,198
13,844
15,379
17,292
25,336
35,563
38,885
41,923
45,642
48,29
27
11,808
12,879
14,573
16,151
18,114
26,336
36,741
40,113
43,195
46,963
49,645
28
12,461
13,565
15,308
16,928
18,939
27,336
37,916
41,337
44,461
48,278
50,993
29
13,121
14,256
16,047
17,708
19,768
28,336
39,087
42,557
45,722
49,588
52,336
30
13,787
14,953
16,791
18,493
20,599
29,336
40,256
43,773
46,979
50,892
53,672
31
14,458
15,655
17,539
19,281
21,434
30,336
41,422
44,985
48,232
52,191
55,003
32
15,134
16,362
18,291
20,072
22,271
31,336
42,585
46,194
49,48
53,486
56,328
33
15,815
17,074
19,047
20,867
23,11
32,336
43,745
47,4
50,725
54,776
57,648
34
16,501
17,789
19,806
21,664
23,952
33,336
44,903
48,602
51,966
56,061
58,964
35
17,192
18,509
20,569
22,465
24,797
34,336
46,059
49,802
53,203
57,342
60,275
36
17,887
19,233
21,336
23,269
25,643
35,336
47,212
50,998
54,437
58,619
61,581
37
18,586
19,96
22,106
24,075
26,492
36,336
48,363
52,192
55,668
59,893
62,883
38
19,289
20,691
22,878
24,884
27,343
37,335
49,513
53,384
56,896
61,162
64,181
39
19,996
21,426
23,654
25,695
28,196
38,335
50,66
54,572
58,12
62,428
65,476
40
20,707
22,164
24,433
26,509
29,051
39,335
51,805
55,758
59,342
63,691
66,766
p = 1−α
weitere Werte: =CHIQU.INV(n;p) bzw. (R-Aufruf ): qchisq(p,n)
Kritische Werte für den Kolmogorov-Smirnov- (KS-) Anpassungstest
n
D0,20
D0,10
D0,05
D0,02
D0,01
D0,005
1
0,9
0,95
0,975
0,99
0,995
0,9975
2
0,68377
0,77638
0,84187
0,89998
0,92925
0,94995
3
0,56481
0,63604
0,70758
0,78452
0,82895
0,86419
4
0,49265
0,56521
0,62392
0,68884
0,73417
0,77628
5
0,44697
0,50944
0,56326
0,62715
0,66848
0,70533
6
0,41035
0,46799
0,51925
0,57738
0,61655
0,65277
7
0,38145
0,43606
0,48341
0,53841
0,57576
0,60966
8
0,35828
0,40962
0,45426
0,50652
0,54174
0,5742
9
0,33907
0,38746
0,43
0,47957
0,51327
0,54435
10
0,32257
0,36866
0,40924
0,4566
0,48889
0,51864
11
0,30825
0,35241
0,39121
0,43668
0,46766
0,49631
12
0,29573
0,33814
0,37542
0,41916
0,449
0,47664
13
0,28466
0,32548
0,36142
0,4036
0,43243
0,45914
14
0,27477
0,31416
0,34889
0,38968
0,41758
0,44345
15
0,26585
0,30397
0,33759
0,37711
0,40416
0,42927
16
0,25774
0,29471
0,32733
0,36569
0,39197
0,41637
17
0,25035
0,28626
0,31796
0,35526
0,38083
0,40458
18
0,24356
0,2785
0,30935
0,34568
0,37059
0,39374
19
0,23731
0,27135
0,30142
0,33684
0,36114
0,38373
20
0,23152
0,26473
0,29407
0,32864
0,35238<