Skip to main content

大数定律和中心极限定理

切比雪夫不等式

对于随机变量 XX,其期望方差存在,对于任意的 ϵ>0\epsilon>0 ,总有

P{XE(X)ϵ}D(X)ϵ2P\{|X-E(X)|\geq\epsilon\}\leq \frac{D(X)}{\epsilon^2}

P{XE(X)ϵ}1D(X)ϵ2P\{|X-E(X)|\leq\epsilon\}\geq 1- \frac{D(X)}{\epsilon^2}
切比雪夫不等式在干什么

其描述了事件大多会聚集在均值的附近。

马尔科夫不等式

切比雪夫不等式是马尔科夫不等式的特殊情况,马尔科夫不等式的公式如下

P(Xa)E(X)aP(X\geq a)\leq \frac{E(X)}{a}

切比雪夫不等式的可以这么写

P(Xμ>kσ)<1k2P(|X-\mu|>k\sigma)< \frac{1}{k^2}

证明见

大数定律

大数定律

独立重复 的随机事件 发生的次数足够多 时,随机事件发生的频率趋近于预期的概率。可以简单理解为样本数量越多,其平概率越接近于期望值。即可以使用频率代替概率,使用样本均值代替总体均值。

弱大数定律

设随机变量序列 X1,X2,,XnX_{1},X_{2},\cdots,X_{n}\cdotsAA 是一个常数,如果对任意 ϵ>0\epsilon>0,有

limnP{XnA<ϵ}=1\lim_{ n \to \infty } P\{|X_{n}-A|<\epsilon\}=1

则称其 依概率收敛于常数 A.

依概率收敛

落在区域外的概率很小,但不是 00.

与其对应的是 强大数定律,而是 几乎必然收敛,即没有落在区域外的概率,即便有,这些落在区域外的点也可以忽略。

info

弱大数定律证明:随着 n 的增大,平均值接近真实期望值的可能性也在增大。

强大数定律证明:随着 n 的增大,平均值基本上就接近真实期望值了。

伯努利大数定律

tip

从定义概率的角度,揭示了概率与频率的关系,当 NN 很大的时候,事件 AA 发生的概率等于 AA 发生的频率。

对于随机变量 XnB(n,p),n=1,2,3X_{n}\sim B(n,p),n=1,2,3\cdots,则对于任意的 ϵ>0\epsilon>0,有

limnP{Xnnp<ϵ}=1\lim_{ n \to \infty } P\left\{ \left| \frac{X_{n}}{n}-p \right|<\epsilon \right\}=1

fnf_{n}nn 重伯努利事件中 AA 发生的次数, 即 nn 趋向于无穷大时,事件 AAnn 重伯努利事件中发生的频率 fnn\frac{f_{n}}{n} 无限接近于事件 AA 在一次实验中发生的概率 pp.

辛钦大数定律

tip

从理论上指出:用算术平均值来近似实际真值是合理的。

对于 独立同分布 的随机变量,其有数学期望,则对任意 ϵ>0\epsilon>0

limnP{1ni=1nXiμ<ϵ}=1\lim_{ n \to \infty } P\left\{ \left| \frac{1}{n}\sum_{i=1}^nX_{i}-\mu \right| <\epsilon\right\}=1

XiX_{i} 为服从 010 -1 分布的随机变量时,辛钦大数定律就是伯努利大数定律,故伯努利大数定律是辛钦伯努利大数定律的一个特例。

切比雪夫大数定律

tip

揭示了样本均值和真实期望的关系

对于两两不相关的随机变量序列 (不要求同分布),存在常数 CC,使得 D(Xi)<CD(X_{i})<C,则对于任意的 ϵ>0\epsilon>0,有

limn{1ni=1nXi1ni=1nE(Xi)<ϵ}=1\lim_{ n \to \infty } \left\{ \left|\frac{1}{n}\sum_{i=1}^nX_{i}- \frac{1}{n}\sum_{i=1}^nE(X_{i})\right|<\epsilon \right\}=1

对比

大数定律分布期望方差用途
伯努利二项分布相同相同估算概率
辛钦独立同分布相同无要求估算期望
切比雪夫独立存在存在且有限估算期望

中心极限定理

tip

中心极限定理指的是给定一个任意分布的总体。每次从这些总体中随机抽取 nn 个抽样(一般认为 n>30n>30 即可),一共抽 mm 次。分别求出这 mm 组抽样的均值。这些平均值的分布接近正态分布。

中心极限定理和大数定律是否矛盾

中心极限定理指的是当 nn 趋于无穷大,样本均值的极限抽样分布是正态分布,而大数定律指的是当 nn 趋于无穷大,样本均值应该更加总体均值。

这说的其实是一个事情,只是该正态分布的均值趋近于总体均值,方差趋近于 00,因此抽样所产生的正态分布图像往往是瘦长的,几乎所有概率都集中在均值附近。

棣莫弗 - 拉普拉斯中心极限定理

对于随机变量 XnB(n,p)(n=1,2,)X_{n}\sim B(n,p)(n=1,2,\cdots),则对于任意的实数 xx,有

limnP{i=1nXinpnp(1p)x}=Φ(x)\lim_{ n \to \infty } P\left\{ \left| \frac{\sum_{i=1}^nX_{i}-np}{\sqrt{ np(1-p) }} \right| \leq x\right\}=\Phi(x)

其中 Φ(x)\Phi(x) 是标准正态的分布函数。

info

上式中实际上是一个标准化的步骤,因此服从标准正态分布,也可以说 i=1nXnN(np,np(1p))\sum_{i=1}^nX_{n}\sim N(np,np(1-p)),则 XN(p,p(1p)n)\overline{X}\sim N\left( p, \frac{p(1-p)}{n} \right)

注意:这里的 nn 足够大,因此方差是趋向于 00 的,正好呼应上文中所说的中心极限定理与大数定律是否矛盾。

列维 - 林德博格中心极限定理

随机变量序列 XnX_{n} 独立同分布,且有方差和期望,则对于任意的实数 xx,有

limnP{i=1nXinμnσx}=limnP{nσ(Xμ)x}Φ(x)\lim_{ n \to \infty } P\left\{ \frac{\sum_{i=1}^nX_{i}-n\mu}{\sqrt{ n }\sigma} \leq x \right\}=\lim_{ n \to \infty }P\left\{\frac{\sqrt{ n }}{\sigma}(\overline X-\mu)\leq x\right\} \Phi(x)
info

同样的,i=1nXi\sum_{i=1}^nX_{i} 近似服从 N(nμ,nσ2)N(n\mu,n\sigma^2),然而这里 nσ2n\sigma^2 并没有趋向于 00,又该怎么解释?