Ohne Beschränkung der Allgemeinheit gelte
a
=
0
,
b
=
1
{\displaystyle a=0,b=1}
.
Sei
K
{\displaystyle K}
eine binomialverteilte Zufallsvariable mit den Parametern
n
{\displaystyle n}
der Anzahl der Versuche bis zum ersten Erfolg (bei einer Folge unabhängiger Bernoulli-Versuche) und Erfolgswahrscheinlichkeit
p
{\displaystyle p}
. Dann gilt
E
[
K
n
]
=
p
{\displaystyle \mathbb {E} \left[{\frac {K}{n}}\right]=p}
.
Mit dem schwachen Gesetz der großen Zahlen (
E
[
K
/
n
]
=
p
{\displaystyle \mathbb {E} [K/n]=p}
!) folgt
lim
n
→
∞
P
(
|
K
n
−
p
|
>
δ
)
=
0
{\displaystyle \lim _{n\to \infty }{P\left(\left|{\frac {K}{n}}-p\right|>\delta \right)}=0}
für alle
δ
>
0
{\displaystyle \delta >0}
(Konvergenz in Wahrscheinlichkeit von
K
/
n
{\displaystyle K/n}
gegen
p
{\displaystyle p}
).
Diese Konvergenz bzgl.
n
{\displaystyle n}
ist sogar gleichmäßig in
p
{\displaystyle p}
(siehe das Korollar weiter unten).
Die Varianz von
K
/
n
{\displaystyle K/n}
ist beschränkt durch
1
4
n
{\displaystyle {\frac {1}{4n}}}
.
Da
K
{\displaystyle K}
binomialverteilt ist, ist
V
a
r
(
K
/
n
)
=
V
a
r
(
K
)
n
2
=
n
p
(
1
−
p
)
n
2
=
p
(
1
−
p
)
n
=
−
p
2
+
p
n
.
{\displaystyle {\begin{aligned}Var(K/n)&={\frac {Var(K)}{n^{2}}}\\&={\frac {np(1-p)}{n^{2}}}\\&={\frac {p(1-p)}{n}}\\&={\frac {-p^{2}+p}{n}}.\end{aligned}}}
Wir suchen das globale Maximum bezüglich
p
{\displaystyle p}
auf
[
0
,
1
]
{\displaystyle [0,1]}
.
0
=
∂
V
a
r
(
K
/
n
)
∂
p
=
−
2
p
+
1
n
0
=
−
2
p
+
1
−
1
=
−
2
p
p
=
1
2
.
{\displaystyle {\begin{aligned}0&={\frac {\partial Var(K/n)}{\partial p}}={\frac {-2p+1}{n}}\\0&=-2p+1\\-1&=-2p\\p&={\frac {1}{2}}.\end{aligned}}}
Bei
p
^
:=
1
2
{\displaystyle {\hat {p}}:={\frac {1}{2}}}
befindet sich also ein möglicher lokaler Extremwert. Wegen
∂
2
V
a
r
(
K
/
n
)
∂
2
p
=
−
2
/
n
<
0
{\displaystyle {\frac {\partial ^{2}Var(K/n)}{\partial ^{2}p}}=-2/n<0}
an der Stelle
p
^
{\displaystyle {\hat {p}}}
ist dieser mögliche lokale Extremum tatsächlich ein lokales Maximum. Auf dem Rand (für
p
=
0
{\displaystyle p=0}
oder
p
=
1
{\displaystyle p=1}
) ist die Varianz 0 und damit kleiner dem lokalen Maximum. Also liegt bei
p
^
{\displaystyle {\hat {p}}}
ein globales Maximum mit Funktionswert
V
a
r
(
K
/
n
)
(
1
2
)
=
1
4
n
{\displaystyle Var(K/n)\left({\frac {1}{2}}\right)={\frac {1}{4n}}}
.
P
(
|
K
n
−
p
|
>
δ
)
{\displaystyle P\left(\left|{\frac {K}{n}}-p\right|>\delta \right)}
konvergiert für
n
→
∞
{\displaystyle n\to \infty }
gleichmäßig gegen 0.
Den Wert des Limes kennen wir aus dem Lemma 1. Es ist also zu zeigen:
∀
ε
>
0
:
∃
n
0
∈
N
:
∀
n
≥
n
0
:
∀
p
∈
[
0
,
1
]
:
|
P
(
|
K
n
−
p
|
>
δ
)
−
0
|
<
ε
{\displaystyle \forall \varepsilon >0:\exists n_{0}\in \mathbb {N} :\forall n\geq n_{0}:\forall p\in [0,1]:\left|P\left(\left|{\frac {K}{n}}-p\right|>\delta \right)-0\right|<\varepsilon }
, das heißt, dass
n
0
{\displaystyle n_{0}}
unabhängig von der Wahl von
p
{\displaystyle p}
ist. Wähle ein
ε
>
0
{\displaystyle \varepsilon >0}
. Sei
p
∈
[
0
,
1
]
{\displaystyle p\in [0,1]}
beliebig. Es gilt für alle
n
∈
N
{\displaystyle n\in \mathbb {N} }
:
|
P
(
|
K
n
−
p
|
>
δ
)
|
≤
V
a
r
(
K
/
n
)
δ
2
∣
Tschebyscheff-Ungleichung
≤
1
/
(
4
n
)
δ
2
∣
Lemma 1
=
1
4
n
δ
2
=:
(
⋆
)
{\displaystyle {\begin{aligned}\left|P\left(\left|{\frac {K}{n}}-p\right|>\delta \right)\right|&\leq {\frac {Var(K/n)}{\delta ^{2}}}{\text{ }}&\mid {\text{ Tschebyscheff-Ungleichung}}\\&\leq {\frac {1/(4n)}{\delta ^{2}}}&\mid {\text{ Lemma 1}}\\&={\frac {1}{4n\delta ^{2}}}=:(\star )\end{aligned}}}
Wähle
n
0
>
1
4
ε
δ
2
{\displaystyle n_{0}>{\frac {1}{4\varepsilon \delta ^{2}}}}
. Dann gilt für alle
n
≥
n
0
{\displaystyle n\geq n_{0}}
:
(
⋆
)
≤
1
4
n
0
δ
2
<
1
4
1
4
ε
δ
2
δ
2
=
4
ε
δ
2
4
δ
2
=
ε
{\displaystyle {\begin{aligned}(\star )&\leq {\frac {1}{4n_{0}\delta ^{2}}}\\&<{\frac {1}{4{\frac {1}{4\varepsilon \delta ^{2}}}\delta ^{2}}}\\&={\frac {4\varepsilon \delta ^{2}}{4\delta ^{2}}}\\&=\varepsilon \end{aligned}}}
.
Da die Definition von
n
0
{\displaystyle n_{0}}
keine Abhängigkeit zu
p
{\displaystyle p}
aufweist, ist das Korollar damit bewiesen.
Das Intervall
[
0
,
1
]
{\displaystyle [0,1]}
ist abgeschlossen und beschränkt, also kompakt (Satz von Heine-Borel).
f
{\displaystyle f}
ist stetig (in
p
{\displaystyle p}
), also insbesondere fast überall stetig.
f
{\displaystyle f}
ist stetig, also messbar. Außerdem ist
f
{\displaystyle f}
auf einem kompakten Intervall definiert.
Also ist
f
{\displaystyle f}
auf diesem Intervall auch gleichmäßig stetig und beschränkt (durch
|
|
sup
f
|
|
{\displaystyle ||\sup f||}
, eine als Konstante von
p
{\displaystyle p}
unabhängige und integrierbare Funktion mit endlichem Erwartungswert).
Daraus folgt für alle
ε
>
0
{\displaystyle \varepsilon >0}
die gleichmäßige Konvergenz bzgl.
p
{\displaystyle p}
(nach dem gleichmäßigen Gesetz der großen Zahl ), also
lim
n
→
∞
sup
p
∈
[
0
,
1
]
P
(
|
f
(
K
n
)
−
f
(
x
)
|
>
ε
)
=
0
{\displaystyle \lim _{n\to \infty }\,\sup _{p\in [0,1]}P\left(\left|f\left({\frac {K}{n}}\right)-f\left(x\right)\right|>\varepsilon \right)=0}
.
(siehe auch hier ????????) Aus der Beschränktheit von
f
{\displaystyle f}
(auf dem gegebenen Intervall) folgt mit dem Satz über die majorisierte Konvergenz für Zufallsvariablen die (gleichmäßige, weil Absolutbetrag unabhängig von
x
{\displaystyle x}
beschränkt und damit Erwartungswert ebenso (Monotonie des Erwartungswertes)) Konvergenz der Erwartungswerte
lim
n
→
∞
sup
p
∈
[
0
,
1
]
E
[
|
f
(
K
n
)
−
f
(
x
)
|
]
=
0
{\displaystyle \lim _{n\to \infty }\,\sup _{p\in [0,1]}E\left[\left|f\left({\frac {K}{n}}\right)-f\left(x\right)\right|\right]=0}
.
Für alle Funktionen
f
{\displaystyle f}
und alle natürlichen Zahlen
n
{\displaystyle n}
gilt:
f
(
x
)
=
∑
k
=
0
n
f
(
x
)
(
n
k
)
p
k
(
1
−
p
n
−
k
)
{\displaystyle f(x)=\sum _{k=0}^{n}f(x){n \choose k}p^{k}(1-p^{n-k})}
f
(
x
)
=
f
(
x
)
×
1
n
=
f
(
x
)
×
(
p
+
1
−
p
)
n
=
f
(
x
)
×
∑
k
=
0
n
(
n
k
)
p
k
(
1
−
p
)
n
−
k
=
∑
k
=
0
n
f
(
x
)
(
n
k
)
p
k
(
1
−
p
)
n
−
k
{\displaystyle {\begin{aligned}f(x)&=f(x)\times 1^{n}\\&=f(x)\times (p+1-p)^{n}\\&=f(x)\times \sum _{k=0}^{n}{n \choose k}p^{k}(1-p)^{n-k}\\&=\sum _{k=0}^{n}f(x){n \choose k}p^{k}(1-p)^{n-k}\end{aligned}}}
aufgrund des Binomischen Lehrsatzes.
Gemäß dem Lemma 2 gilt
|
f
(
K
/
n
)
−
f
(
p
)
|
=
∑
k
=
0
n
|
f
(
K
/
n
)
−
f
(
p
)
|
(
n
k
)
p
k
(
1
−
p
)
n
−
k
{\displaystyle |f(K/n)-f(p)|=\sum _{k=0}^{n}|f(K/n)-f(p)|{n \choose k}p^{k}(1-p)^{n-k}}
. Sei
ε
>
0
{\displaystyle \varepsilon >0}
. Wegen der gleichmäßigen Stetigkeit von
f
{\displaystyle f}
existiert dann ein
δ
>
0
{\displaystyle \delta >0}
, sodass für alle Punkte
x
,
y
∈
[
a
,
b
]
{\displaystyle x,y\in [a,b]}
gilt:
|
x
−
y
|
<
δ
⟹
|
f
(
x
)
−
f
(
y
)
|
<
ε
/
2.
{\displaystyle |x-y|<\delta \implies |f(x)-f(y)|<\varepsilon /2.}
Zerlege die Summe in zwei Teile:
einen Teil
A
{\displaystyle A}
mit
k
{\displaystyle k}
-Werten, die
|
k
/
n
−
x
|
<
δ
{\displaystyle |k/n-x|<\delta }
erfüllen und
einen Teil
B
{\displaystyle B}
mit
k
{\displaystyle k}
-Werten, die diese Bedingung nicht erfüllen.
Wegen der Stetigkeit von
f
{\displaystyle f}
gilt für alle Summenglieder von
A
{\displaystyle A}
:
|
f
(
K
(
x
)
/
n
)
−
f
(
x
)
|
<
ε
/
2
{\displaystyle |f(K(x)/n)-f(x)|<\varepsilon /2}
und für all jene von
B
{\displaystyle B}
:
|
f
(
K
(
x
)
/
n
)
−
f
(
x
)
|
<
M
+
M
=
2
M
{\displaystyle |f(K(x)/n)-f(x)|<M+M=2M}
wegen der Beschränktheit von
f
{\displaystyle f}
auf
[
a
,
b
]
{\displaystyle [a,b]}
. Daraus ergibt sich:
E
[
|
f
(
K
/
n
)
−
f
(
x
)
|
]
=
E
[
∑
k
=
0
n
|
f
(
K
/
n
)
−
f
(
x
)
|
(
n
k
)
p
k
(
1
−
p
)
n
−
k
]
≤
E
[
(
1
k
wie in
A
)
×
ε
/
2
]
+
E
[
(
1
k
wie in
B
)
×
2
M
]
=
P
(
k
wie in
A
)
×
ε
/
2
+
P
(
k
wie in
B
)
×
2
M
≤
1
×
ε
/
2
+
1
×
2
M
ε
4
n
≤
ε
{\displaystyle {\begin{aligned}\mathbb {E} \left[|f(K/n)-f(x)|\right]&=\mathbb {E} \left[\sum _{k=0}^{n}|f(K/n)-f(x)|{n \choose k}p^{k}(1-p)^{n-k}\right]\\&\leq \mathbb {E} \left[(\mathbf {1} _{k{\text{ wie in }}A})\times \varepsilon /2\right]+\mathbb {E} \left[(\mathbf {1} _{k{\text{ wie in }}B})\times 2M\right]\\&=P(k{\text{ wie in }}A)\times \varepsilon /2+P(k{\text{ wie in }}B)\times 2M\\&\leq 1\times \varepsilon /2+1\times 2M{\frac {\varepsilon }{4n}}\\&\leq \varepsilon \end{aligned}}}
für alle
n
>
M
{\displaystyle n>M}
. Mit der Dreiecksgleichung des Erwartungswertes und seiner Linearität folgt für ein beliebiges, fixes
x
{\displaystyle x}
:
E
[
|
f
(
K
/
n
)
−
f
(
x
)
|
]
≥
|
E
[
f
(
K
/
n
)
−
f
(
x
)
]
|
=
|
E
[
f
(
K
/
n
)
]
−
E
[
f
(
x
)
]
|
=
|
E
[
f
(
K
/
n
)
]
−
f
(
x
)
|
{\displaystyle {\begin{aligned}\mathbb {E} \left[|f(K/n)-f(x)|\right]&\geq |\mathbb {E} \left[f(K/n)-f(x)\right]|\\&=|\mathbb {E} \left[f(K/n)\right]-\mathbb {E} \left[f(x)\right]|\\&=|\mathbb {E} \left[f(K/n)\right]-f(x)|\end{aligned}}}
. Definiere die Bernstein-Polynome durch
B
n
(
f
)
(
x
)
:=
∑
ν
=
0
n
f
(
ν
n
)
b
ν
,
n
(
x
)
{\displaystyle {\begin{aligned}B_{n}(f)(x):=\sum _{\nu =0}^{n}f\left({\frac {\nu }{n}}\right)b_{\nu ,n}(x)\end{aligned}}}
mit
b
ν
,
n
(
x
)
=
(
n
ν
)
x
ν
(
1
−
x
)
n
−
ν
,
ν
=
0
,
…
,
n
.
{\displaystyle b_{\nu ,n}(x)={n \choose \nu }x^{\nu }\left(1-x\right)^{n-\nu },\quad \nu =0,\ldots ,n.}
Dann genügt es, Lemma 3 zu zeigen, denn dann ist zusammengefasst (mit
P
:=
B
n
(
f
)
{\displaystyle \mathbf {P} :=B_{n}(f)}
):
|
B
n
(
f
)
(
x
)
−
f
(
x
)
|
=
|
E
[
f
(
K
/
n
)
]
−
f
(
x
)
|
≤
E
[
|
f
(
K
/
n
)
−
f
(
x
)
|
]
≤
ε
.
{\displaystyle {\begin{aligned}|B_{n}(f)(x)-f(x)|&=|\mathbb {E} [f(K/n)]-f(x)|\\&\leq \mathbb {E} [|f(K/n)-f(x)|]\\&\leq \varepsilon .\end{aligned}}}
E
[
f
(
K
/
n
)
]
=
B
n
(
f
)
(
x
)
{\displaystyle \mathbb {E} [f(K/n)]=B_{n}(f)(x)}
Es folgt schrittweise aus dem Gesetz des bewusstlosen Statistikers (»law of unconscious statistician«), der Berechnung der Wahrscheinlichkeitsfunktion
f
K
{\displaystyle f_{K}}
und dem Einsetzen der Wahrscheinlichkeitsfunktion der Binomialverteilung das Ergebnis.
E
[
f
(
K
/
n
)
]
=
∑
ν
=
0
n
f
(
ν
/
n
)
f
K
/
n
(
ν
/
n
)
=
∑
ν
=
0
n
f
(
ν
/
n
)
f
K
(
n
ν
/
n
)
|
d
n
ν
/
n
d
ν
|
=
∑
ν
=
0
n
f
(
ν
/
n
)
f
K
(
ν
)
|
n
n
|
=
∑
ν
=
0
n
f
(
ν
/
n
)
f
K
(
ν
)
|
1
|
=
∑
ν
=
0
n
f
(
ν
/
n
)
f
K
(
ν
)
=
∑
ν
=
0
n
f
(
ν
n
)
(
n
ν
)
x
ν
(
1
−
x
)
n
−
ν
{\displaystyle {\begin{aligned}\mathbb {E} [f(K/n)]&=\sum _{\nu =0}^{n}f(\nu /n)f_{K/n}(\nu /n)\\&=\sum _{\nu =0}^{n}f(\nu /n)f_{K}(n\nu /n)\left|{\frac {dn\nu /n}{d\nu }}\right|\\&=\sum _{\nu =0}^{n}f(\nu /n)f_{K}(\nu )\left|{\frac {n}{n}}\right|\\&=\sum _{\nu =0}^{n}f(\nu /n)f_{K}(\nu )\left|1\right|\\&=\sum _{\nu =0}^{n}f(\nu /n)f_{K}(\nu )\\&=\sum _{\nu =0}^{n}f\left({\frac {\nu }{n}}\right){n \choose \nu }x^{\nu }\left(1-x\right)^{n-\nu }\end{aligned}}}