【个人学习笔记】概率论与数理统计知识梳理【五】

文章目录

  • 第五章、大数定律及中心极限定理
  • 一、大数定律
    • 1.1 基本概念
    • 1.2 弱大数定理
  • 二、中心极限定理
    • 独立同分布的中心极限定理定理
  • 总结


第五章、大数定律及中心极限定理

写博客比想象中费劲得多,公式得敲好久,所以只得随缘更更了,想写一些机器学习相关的东西,但是强迫症又不允许我把这个扔掉不管,我太难了Orz 这一节的内容比较深,即使我是一个喜欢数学的工科生,也没有精力再去深究了,各式各样的大数定律及中心极限定理我不打算一一列举并证明,只是挑出其中一个作为例子,阐述它们的主要的内容。因为它们都是表达类似的思想,具体的形式有所区别。


一、大数定律

1.1 基本概念

还记得说过的频率的稳定性吗,频率在随机试验重复足够多次以后会趋近于概率。这个性质是概率定义的基础,这节就先来对这个稳定性进行理论说明。
定义:

在随机试验进行足够多次,几乎必然存在的规律称为大数定律

大数定律说白了探索的都是随机变量序列的算术平均与数学期望的算术平均的关系。

1.2 弱大数定理

定理:

X 1 , X 2 . . . X_1,X_2... X1,X2...是相互独立的,服从同一分布的随机变量序列,且具有数学期望 E ( X k ) = μ ( k = 1 , 2 , . . . ) E(X_k)=\mu(k=1,2,...) E(Xk)=μ(k=1,2,...)。作前n个变量的算术平均 X ˉ = 1 n ∑ k = 1 n X k \bar X= \frac{1}{n}{\sum_{k=1}^{n}X_k} Xˉ=n1k=1nXk,则对任意的 ϵ > 0 \epsilon>0 ϵ>0,有:
lim ⁡ n → ∞ P ( ∣ 1 n ∑ k = 1 n X k − μ ∣ < ϵ ) = 1 \lim_{n\rightarrow\infty}P(|\frac{1}{n}{\sum_{k=1}^{n}X_k}-\mu|<\epsilon)=1 limnP(n1k=1nXkμ<ϵ)=1

从定义的形式来看,意思就是随着随机变量序列的变长,它们的算术平均趋近于他们的相同的期望。并且这种形式与上一章的切比雪夫不等式很是相像,这样就能从切比雪夫不等式入手去证明,但是别忘了使用切比雪夫不等式要求随机变量必须存在方差。
证明:
存在方差的情况:假设方差为 σ 2 < ∞ \sigma^2<\infty σ2<

E ( X ˉ ) = μ , D ( X ˉ ) = σ 2 / n E(\bar X)=\mu,D(\bar X)=\sigma^2/n E(Xˉ)=μ,D(Xˉ)=σ2/n
由切比雪夫不等式有:
P ( ∣ X ˉ − μ ∣ ⩾ ϵ ) ⩽ σ 2 / n ϵ 2 P(|\bar X-\mu|\geqslant\epsilon)\leqslant\sigma^2/n\epsilon^2 P(Xˉμϵ)σ2/nϵ2
P ( ∣ X ˉ − μ ∣ < ϵ ) > 1 − σ 2 / n ϵ 2 = 1 P(|\bar X-\mu|<\epsilon)>1-\sigma^2/n\epsilon^2=1 P(Xˉμ<ϵ)>1σ2/nϵ2=1 n n n趋近于无穷时成立,
再由夹逼准则,原式得证。

其实所有的大数定理都是为了阐述一个事实,那就是在随机变量序列取的足够长的时候,它们的算术平均趋近于数学期望的均值。具体的各类大数定理及其证明不再进行探讨,怪麻烦的。(在神经网络中求期望时用样本均值代替,就是基于这类定理)

二、中心极限定理

中心极限定理描述的都是当大量的各个相互独立的随机因素的影响叠加在一块时,综合得到的随机变量就会服从正态分布。

独立同分布的中心极限定理定理

定理:

设随机变量 X 1 , X 2 , . . . X n X_1,X_2,...X_n X1,X2,...Xn相互独立,服从同一分布,且具有数学期望和方差: μ , σ 2 \mu,\sigma^2 μ,σ2,则它们的和服从参数为 n μ , n σ 2 n\mu,n\sigma^2 nμ,nσ2

其他形式的中心极限定理也都是各种情况下,大量随机变量的求和满足正态分布。可以理解为足够多的随机因素综合起来的效果就会表现为正态分布。这也为什么正态分布在很多很多场景中使用都很取得比较好的效果。

总结

这章感觉没啥可写的,都是概念性的理解,要深入剖析的话,我太菜了…留下了不学无术的泪水。

你可能感兴趣的:(概率论)