机器学习笔记(二)数理统计

数理统计

@(Machine Learning)[数理统计和参数估计]

1.事件的独立性:

  • 给定 A B 是两个事件,若有 P(AB)=P(A)P(B) 则称事件 A B 相互独立。
  • 说明:
    • A B 相互独立,则 P(AB)=P(A) 意为事件 B 的发生对 A 没有任何影响。
    • 实践中往往根据两个事件是否相互影响二判断独立性:如给定 M 个样本,若干次采样的情形,往往假定他们相互独立。

2.期望:

  • 离散型:
    E(X)=ixip
  • 连续型:(概率分布率变成概率密度函数)
    E(X)=xf(x)dx
  • 即:概率加权下的“平均值”

2.1期望的性质:

  • 无条件成立
    E(kX)=kE(x)
    E(X+Y)=E(X)+E(Y)
  • X Y 相互独立
    E(XY)=E(X)E(Y)

    • 反之不成立。事实上,若 E(XY)=E(X)E(Y) ,只能说明 X Y 不相关

3.方差:

  • 定义:
    Var(X)=E([XE(X)]2)=E(X2)E2(X)
  • 无条件成立:
    Var(c)=0

    Var(X+c)=Var(X)
    Var(kX)=k2Var(X)
  • X Y 独立:
    Var(X+Y)=Var(X)+Var(Y)
  • 另外,方差的平方根叫做标准差

4.协方差:

协方差是两个随机变量具有相同方向变化趋势的度量;
- 若 Cov(X,Y)>0 ,他们的变化趋势相同
- 若 Cov(X,Y)<0 ,他们的变化趋势相反
- 若 Cov(X,Y)=0 X Y 不相关


4.1定义及性质

定义

Cov(X,Y)=E[XE(X)][YE(Y)]

性质
Cov(X,Y)=Cov(X,X)

Cov(X,Y)=E(XY)E(X)E(Y)

- 如果 X Y 独立的,那么协方差是0
- 但是, XY 独立这个 前提太强,我们定义,若 Cov(X,Y)=0 ,称 X Y 不相关


那么两个随即变量的协方差是否有上界呢?

Var(X)=σ21

Var(Y)=σ22

协方差小于等于他们标准差的乘积,即:
|Cov(X,Y)|σ1σ2

- 当且仅当X和Y之间有 线性关系时, 等号成立,也就是 协方差最大( σ1σ2 )。
- 所以说上面的不相关( 协方差为0)就可以说成是 没有线性关系(但有可能存在其他函数关系),也就是 线性独立的。但是还是不能保证 X Y 是相互独立的。

4.2 皮尔逊(Pearson)相关系数:

  • 定义:
    ρXY=Cov(X,Y)Var(X)Var(Y)
  • 由协方差上界定理可知, |ρ|1
  • 当且仅当 X Y 线性关系时,等号成立。
  • 容易看到,相关系数是标准尺度下的协方差。

4.3协方差矩阵:

  • 对于n个随机向量 X1,X2,....Xn ,任意两个元素 Xi Xj 都可以得到一个协方差,从而形成n*n的矩阵;协方差矩阵是对称阵
    cij=E[XiE(Xi)][XjE(Xj)]=Cov(Xi,Xj)

5.矩

  • 对于随即变量 X X k 阶原点矩
    E(Xk)
  • X k 阶中心矩
    E[XE(X)]k

利用矩进行统计量的总结:
- 期望其实就是一阶原点矩(k=1的时候)。
- 方差就是二阶中心距
- 变异系数(Coefficient of Variation)
- 标准差与均值的比值成为变异系数,记为 CV
- 偏度Skewness(三阶)
- 峰度Kurtosis(四阶)

6.偏度

衡量随机概率分布的不对称性,是相对于平均值不对称程度的度量。
- 偏度值可以为正可以为负,或者无意义
- 偏度为 负(负偏)/正(正偏) 表示在概率密度函数长尾在左侧 / 右侧
- 偏度为零表示数值相对均匀的分布在平均值附近,但不一定意味着一定是均匀分布机器学习笔记(二)数理统计_第1张图片

6.1偏度公式

  • 三阶累积量和二阶累积量的1.5次方的比率
    γ1=[(Xμσ)3]=E[(Xμ)3](E[(Xμ)2])32=K3K322
  • 实践里通常用下面的公式计算偏度
    γ1=[(Xμσ)3]=E[X3]3μE[X2]+2μ2σ3=E[X3]3μσ2μ3σ3

7.峰度

如果再把维度高上去,就可以度量尖的情况。峰度就是指概率密度在均值处峰值高低的特征。通常定义四阶中心矩除以方差的平方减3.

γ2=K4K22=μ4σ43=1nni=1(xix¯)4(1nni=1(xix¯)2)23

- “减3”是为了让正态分布的峰度为0.
- μ4σ4 也被称为 超值峰度(excess kurtosis).
- 超值峰度为 ,称为 尖峰态;超值峰度为 ,称为 低峰态


8.切比雪夫不等式

思考题:

设随机变量 X 的期望为 μ ,方差为 σ2 , 对于任意正数 ε ,试估计概率 P{|Xμ|<ε} 的下限。
- 即:随机变量的变化值落在期望值附近的概率。

解:
P{|Xμ|ε}

=|Xμ|εf(x)dx <> 等价于在这个定义域 |Xμ|ε 上对 f(x) 求积分

|Xμ|ε|Xμ|2ε2f(x)dx <> |Xμ|2ε2 是大于1的

=1ε2|Xμ|ε|Xμ|2f(x)dx <>提出ε

1ε2+(Xμ)2f(x)dx <>积分项就是方差

=σ2ε2


所以:
P{|Xμ|<ε}

=1P{|Xμ|ε}

1σ2ε2

这就意味着方差越小,离期望值的概率就越大。


这就引出了切比雪夫不等式,它阐明了方差的实际的物理意义。

P{|Xμ|<ε}σ2ε2

- 切比雪夫不等式说明, X 的方差越小, 事件 |Xμ|<ε 发生的概率越大。即: X取的值基本上集中在期望μ附近

9.大数定理


  • 大数定理是可以通过切比雪夫不等式证明的:

设随机变量 X1,X2Xn 互相独立,并且具有 相同的期望 μ 和方差 σ2 作前n个随机变量的平均 Yn=1nnn=1X ,则对于任意正数 ε ,有
limn>+P{|Ynμ|<ε}=1

Yn 最终会以概率1收敛到期望上去 , Yn 趋近于 μ
- 当n很大的时,随机变量 X1,X2Xn 的平均值 Yn 在概率意义下 无限接近期望 μ

9.1重要推论(概率的标准定义)

一次试验中事件A发生的概率为 p ;重复 n 次 独立试验中,事件A发生了 nA 次,则 pnnA 的关系满足: 对于任意正数 ε

limn>+P{|nAnp|<ε}=1

- nAn 代表了事件发生的 频率,
意为这个频率能以概率1收敛到我的概率—— 频率接近于概率

10.中心极限定理

设随机变量 X1,X2Xn 互相独立,服从同一分布,并且具有相同的期望 μ 和方差 σ2 ,则随机变量

Yn=ni=1Xinμnσ
的分布收敛到 标准正态分布
- 容易得到: ni=1Xi 收敛到正态分布 N(nμnσ2)


  • 实际问题中,很多随机现象可以看做许多因素的独立影响的综合反映,往往近似服从正态分布。
    • 城市耗电量:大量用户的耗电量总和
    • 学生考试成绩:大量学生的考试成绩统计。
    • 线性回归中,证明最小二乘法的合理性。

你可能感兴趣的:(机器学习,数学)