【数学基础】第十三课:参数估计

1.参数估计

参数估计是统计推断的一种。根据从总体中抽取的随机样本来估计总体分布中未知参数的过程。

从估计形式看,可分为:

  1. 点估计。
  2. 区间估计。

1.1.参数估计和假设检验

参数估计和假设检验是统计推断的两个组成部分,它们都是利用样本对总体进行某种推断,但推断的角度不同。

参数估计讨论的是用样本统计量估计总体参数的方法,总体参数在估计前是未知的。

而在假设检验中,则是先对总体参数值提出一个假设,然后利用样本信息去检验这个假设是否成立。

2.点估计

点估计是用样本统计量来估计总体参数,因为样本统计量为数轴上某一点值,估计的结果也以一个点的数值表示,所以称为点估计。

本文主要介绍两种点估计的方法:

  1. 矩估计。
  2. 极大似然估计。

2.1.矩估计

矩估计的基本思想是根据大数定律,利用样本矩对总体分布矩进行估计。然后利用总体矩与参数的关系来对参数进行估计。

接下来通过两个例子来说明下矩估计的用法。

2.1.1.例子一:两点分布的矩估计

X服从两点分布取值为{-1,1}, P ( − 1 ) = 1 − θ , P ( 1 ) = θ P(-1)=1-\theta,P(1)=\theta P(1)=1θ,P(1)=θ。现在独立重复实验n次,得到样本 X 1 , . . . , X n X_1,...,X_n X1,...,Xn。请利用矩估计来估计参数 θ \theta θ

首先考虑哪一个矩可以用来估计参数 θ \theta θ,先尝试计算其一阶原点矩和二阶原点矩分别为:

E ( X ) = ( 1 − θ ) ⋅ ( − 1 ) + θ ⋅ 1 = 2 θ − 1 E(X)=(1-\theta) \cdot (-1) + \theta \cdot 1=2 \theta -1 E(X)=(1θ)(1)+θ1=2θ1

E ( X 2 ) = ( 1 − θ ) ⋅ 1 + θ ⋅ 1 = 1 E(X^2)=(1-\theta) \cdot 1 + \theta \cdot 1=1 E(X2)=(1θ)1+θ1=1

我们可以看到二阶原点矩和参数 θ \theta θ没有关系,而一阶原点矩和 θ \theta θ的关系如下:

θ = 1 + E ( X ) 2 \theta=\frac{1+E(X)}{2} θ=21+E(X)

因此我们使用一阶原点矩进行总体参数的估计:

θ ^ = 1 + X ˉ 2 \hat{\theta}=\frac{1+\bar{X}}{2} θ^=21+Xˉ

2.1.2.例子二:正态分布的矩估计

X服从参数为 θ = ( μ , σ ) \theta=(\mu,\sigma) θ=(μ,σ)的正态分布,独立重复实验n次得到样本 X 1 , . . . , X n X_1,...,X_n X1,...,Xn。请利用矩估计来估计参数 θ \theta θ

首先考虑哪一个矩可以用来估计参数 θ \theta θ,先尝试计算其一阶、二阶和三阶原点矩:

  1. E ( X ) = μ E(X)=\mu E(X)=μ
  2. E ( X 2 ) = μ 2 + σ 2 E(X^2)=\mu^2+\sigma^2 E(X2)=μ2+σ2
  3. E ( X 3 ) = μ 3 + 3 μ σ 2 E(X^3)=\mu^3+3\mu \sigma^2 E(X3)=μ3+3μσ2

原则上二阶矩和三阶矩都可以用来估计参数 θ \theta θ,所以矩估计一般来讲是不唯一的。当有多种选择的时候,我们尽可能选择阶数较小的矩:

μ ^ = X ˉ ; σ ^ = X 2 ˉ − X ˉ 2 \hat{\mu}=\bar{X};\hat{\sigma}=\sqrt{\bar{X^2}-\bar{X}^2} μ^=Xˉ;σ^=X2ˉXˉ2

2.2.极大似然估计

给定随机变量的分布与未知参数,利用观测到的样本计算似然函数。选择最大化似然函数的参数作为参数估计量。

之前博客中已经介绍过该概念,在此不再赘述,请点击下方链接跳转:

  1. 最大似然估计
  2. 似然函数(即以参数为自变量的函数)

接下来依旧以正态分布为例,使用极大似然估计对其进行参数估计。

2.2.1.例子一:正态分布的极大似然估计

X服从参数为 θ = ( μ , σ ) \theta=(\mu,\sigma) θ=(μ,σ)的正态分布,独立重复实验n次得到样本 X 1 , . . . , X n X_1,...,X_n X1,...,Xn。请利用极大似然估计来估计参数 θ \theta θ

构建其似然函数为:

L ( μ , σ 2 ) = ∏ i = 1 n f ( X i ; μ , σ 2 ) = ∏ i = 1 n 1 2 π σ e x p ( − ( X i − μ ) 2 2 σ 2 ) = ( 1 2 π σ ) n e x p ( − ∑ i = 1 n ( X i − μ ) 2 2 σ 2 ) = ( 2 π σ 2 ) − n 2 e x p ( − ∑ i = 1 n ( X i − μ ) 2 2 σ 2 ) \begin{align*} L(\mu,\sigma^2) & = \prod^n_{i=1} f(X_i;\mu,\sigma^2) \tag{1} \\ & = \prod^n_{i=1} \frac{1}{\sqrt{2\pi} \sigma} exp(-\frac{(X_i-\mu)^2}{2\sigma^2}) \tag{2} \\ & = (\frac{1}{\sqrt{2\pi} \sigma})^n exp(-\sum^n_{i=1} \frac{(X_i-\mu)^2}{2\sigma^2} ) \tag{3} \\ & = (2\pi \sigma^2)^{-\frac{n}{2}} exp(-\sum^n_{i=1} \frac{(X_i-\mu)^2}{2\sigma^2} ) \tag{4}\end{align*} L(μ,σ2)=i=1nf(Xi;μ,σ2)=i=1n2π σ1exp(2σ2(Xiμ)2)=(2π σ1)nexp(i=1n2σ2(Xiμ)2)=(2πσ2)2nexp(i=1n2σ2(Xiμ)2)(1)(2)(3)(4)

  1. 式(1)以概率密度的乘积作为似然函数。相比加法,更能简化计算。
  2. 式(2)为正态分布的概率密度函数。

为了简化计算,这里取对数似然:

ln ⁡ L ( μ , σ 2 ) = ln ⁡ ( ( 2 π σ 2 ) − n 2 e x p ( − ∑ i = 1 n ( X i − μ ) 2 2 σ 2 ) ) = ln ⁡ ( ( 2 π σ 2 ) − n 2 ) + ln ⁡ ( e x p ( − ∑ i = 1 n ( X i − μ ) 2 2 σ 2 ) ) = − n 2 ln ⁡ ( 2 π σ 2 ) − ∑ i = 1 n ( X i − μ ) 2 2 σ 2 = − n 2 ( ln ⁡ ( 2 π ) + ln ⁡ σ 2 ) − 1 2 σ 2 ∑ i = 1 n ( X i − μ ) 2 = − n 2 ln ⁡ ( 2 π ) − n 2 ln ⁡ σ 2 − 1 2 σ 2 ∑ i = 1 n ( X i − μ ) 2 \begin{align*} \ln L(\mu,\sigma^2) &= \ln ((2\pi \sigma^2)^{-\frac{n}{2}} exp(-\sum^n_{i=1} \frac{(X_i-\mu)^2}{2\sigma^2} )) \tag{5} \\&= \ln ( (2\pi \sigma^2)^{-\frac{n}{2}} ) + \ln ( exp(-\sum^n_{i=1} \frac{(X_i-\mu)^2}{2\sigma^2} ) ) \tag{6} \\&= -\frac{n}{2} \ln (2\pi \sigma^2) - \sum^n_{i=1} \frac{(X_i-\mu)^2}{2\sigma^2} \tag{7} \\&= -\frac{n}{2} (\ln (2\pi) + \ln \sigma^2 ) - \frac{1}{2\sigma^2} \sum^n_{i=1} (X_i - \mu)^2 \tag{8} \\&= -\frac{n}{2} \ln {(2\pi)} -\frac{n}{2} \ln \sigma^2 - \frac{1}{2\sigma^2} \sum^n_{i=1} (X_i-\mu)^2 \tag{9} \end{align*} lnL(μ,σ2)=ln((2πσ2)2nexp(i=1n2σ2(Xiμ)2))=ln((2πσ2)2n)+ln(exp(i=1n2σ2(Xiμ)2))=2nln(2πσ2)i=1n2σ2(Xiμ)2=2n(ln(2π)+lnσ2)2σ21i=1n(Xiμ)2=2nln(2π)2nlnσ22σ21i=1n(Xiμ)2(5)(6)(7)(8)(9)

上述推导用到以下公式:

  1. log ⁡ a M N = log ⁡ a M + log ⁡ a N \log_a MN=\log_a M+\log_a N logaMN=logaM+logaN
  2. log ⁡ a M N = log ⁡ a M − log ⁡ a N \log_a \frac{M}{N}=\log_a M-\log_a N logaNM=logaMlogaN
  3. log ⁡ a M n = n log ⁡ a M \log_a M^n=n\log_a M logaMn=nlogaM

然后分别对 μ , σ 2 \mu,\sigma^2 μ,σ2求偏导数,并使其等于0,即极值点( σ 2 \sigma^2 σ2看作一个整体求偏导):

∂ ln ⁡ L ∂ μ = 1 σ 2 ∑ i = 1 n ( X i − μ ) = 0 \frac{\partial \ln L}{\partial \mu} = \frac{1}{\sigma^2} \sum^n_{i=1} (X_i-\mu)=0 μlnL=σ21i=1n(Xiμ)=0

∂ ln ⁡ L ∂ σ 2 = − n 2 σ 2 + 1 2 σ 4 ∑ i = 1 n ( X i − μ ) 2 = 0 \frac{\partial \ln L}{\partial \sigma^2}=-\frac{n}{2\sigma^2}+\frac{1}{2\sigma^4} \sum^n_{i=1} (X_i-\mu)^2=0 σ2lnL=2σ2n+2σ41i=1n(Xiμ)2=0

化简可得最终的参数估计结果:

μ ^ = 1 n ∑ i = 1 n X i = x ˉ \hat{\mu}=\frac{1}{n} \sum^n_{i=1} X_i=\bar{x} μ^=n1i=1nXi=xˉ

σ 2 ^ = 1 n ∑ i = 1 n ( X i − x ˉ ) 2 \hat{\sigma^2}=\frac{1}{n} \sum^n_{i=1} (X_i - \bar{x})^2 σ2^=n1i=1n(Xixˉ)2

2.3.点估计的评判准则

如果我们使用不同的点估计方法得到了不同的参数估计量,那么我们应该选择哪一个作为最终的参数估计量呢?这个时候我们就需要一个点估计的评判准则来帮我们做出决定。

点估计的评判准则有很多,这里只给出较常用的四个:

  1. 相合性(consistency):当样本数量趋于无穷时,估计量收敛于参数真实值。
  2. 无偏性(bias):对于有限的样本,估计量所符合的分布之期望等于参数真实值(即估计的参数的期望等于参数真实值)。
  3. 有效性(efficiency):估计值所满足的分布方差越小越好。
  4. 渐进正态性(asymptotic normality):当样本趋于无穷时,去中心化去量纲化的估计量符合标准正态分布。

接下来我们对前三个准则进行详细的说明。

2.3.1.无偏性

定义:

θ ^ = θ ^ ( X 1 , X 2 , . . . , X n ) \hat{\theta}=\hat{\theta}(X_1,X_2,...,X_n) θ^=θ^(X1,X2,...,Xn)是参数 θ \theta θ的一个估计量,如果 E ( θ ^ ) E(\hat{\theta}) E(θ^)存在,且 E ( θ ^ ) = θ E(\hat{\theta})=\theta E(θ^)=θ,则称 θ ^ \hat{\theta} θ^ θ \theta θ无偏估计量,也称 θ ^ \hat{\theta} θ^作为 θ \theta θ的估计具有无偏性。否则称 θ ^ \hat{\theta} θ^ θ \theta θ有偏估计量

其中, E ( θ ^ ) − θ E(\hat{\theta})-\theta E(θ^)θ称为系统误差。无偏估计就意味着没有系统误差。

θ ^ = θ ^ ( X 1 , X 2 , . . . , X n ) \hat{\theta}=\hat{\theta}(X_1,X_2,...,X_n) θ^=θ^(X1,X2,...,Xn)是参数 θ \theta θ的一个估计量,如果 E ( θ ^ ) E(\hat{\theta}) E(θ^)存在,且 lim ⁡ n → ∞ E ( θ ^ ) = θ \lim_{n\to \infty} E(\hat{\theta})=\theta limnE(θ^)=θ,则称 θ ^ \hat{\theta} θ^ θ \theta θ渐进无偏估计量

以2.2.1部分的结果为例,其实我们得到的 σ 2 ^ = 1 n ∑ i = 1 n ( X i − x ˉ ) 2 \hat{\sigma^2}=\frac{1}{n} \sum^n_{i=1} (X_i - \bar{x})^2 σ2^=n1i=1n(Xixˉ)2 σ 2 \sigma^2 σ2的有偏估计量。 σ 2 \sigma^2 σ2的无偏估计量应该为 1 n − 1 ∑ i = 1 n ( X i − x ˉ ) 2 \frac{1}{n-1}\sum^n_{i=1}(X_i-\bar{x})^2 n11i=1n(Xixˉ)2

2.3.2.有效性

当针对同一问题,我们得到的无偏估计量有多个时,怎么去选择或者说比较其之间的优劣呢?答案就是通过“有效性”这一评判准则。

⚠️“有效性”准则使用的前提必须是在无偏估计量之间。

定义:

θ 1 ^ = θ 1 ^ ( X 1 , X 2 , . . . , X n ) , θ 2 ^ = θ 2 ^ ( X 1 , X 2 , . . . , X n ) \hat{\theta_1}=\hat{\theta_1}(X_1,X_2,...,X_n),\hat{\theta_2}=\hat{\theta_2}(X_1,X_2,...,X_n) θ1^=θ1^(X1,X2,...,Xn),θ2^=θ2^(X1,X2,...,Xn) θ \theta θ的无偏估计量,如果 D ( θ 1 ^ ) ⩽ D ( θ 2 ^ ) D(\hat{\theta_1})\leqslant D(\hat{\theta_2}) D(θ1^)D(θ2^),则称 θ 1 ^ \hat{\theta_1} θ1^ θ 2 ^ \hat{\theta_2} θ2^有效。

“有效性”准则的证明需要用到柯西不等式(详细证明过程不再介绍)。

柯西不等式:

∑ i = 1 n a i 2 ∑ i = 1 n b i 2 ⩾ ( ∑ i = 1 n a i b i ) 2 \sum^n_{i=1} a_i^2 \sum^n_{i=1} b_i^2 \geqslant (\sum^n_{i=1} a_i b_i)^2 i=1nai2i=1nbi2(i=1naibi)2

2.3.3.相合性

‼️之前讨论的无偏性和有效性都是基于样本容量有限的前提下。

在样本容量有限的前提下,无偏估计量一般不等于未知参数。如果我们希望无偏估计量随着样本容量的增加能够越来越逼近未知参数,这时就得考虑“相合性”(也称“一致性”)规则。

定义:

θ ^ = θ ^ ( X 1 , X 2 , . . . , X n ) \hat{\theta}=\hat{\theta}(X_1,X_2,...,X_n) θ^=θ^(X1,X2,...,Xn)是未知参数 θ \theta θ的一个估计量,如果对于任意的正数 ϵ \epsilon ϵ,有 lim ⁡ n → ∞ P { ∣ θ ^ − θ ∣ ⩾ ϵ } = 0 \lim_{n\to \infty} P\{\mid \hat{\theta} - \theta \mid \geqslant \epsilon \}=0 limnP{θ^θϵ}=0,则称 θ ^ \hat{\theta} θ^ θ \theta θ的相合估计量。

⚠️矩估计量都是相合估计量(这是由大数定律保证的)。

3.区间估计

区间估计是从点估计值和抽样标准误差出发,按给定的概率值建立包含待估计参数的区间。其中这个给定的概率值称为置信度置信水平,这个建立起来的包含待估计参数的区间称为置信区间,指总体参数值落在样本统计值某一区内的概率。

置信区间定义:

X 1 , X 2 , . . . , X n X_1,X_2,...,X_n X1,X2,...,Xn是来自总体X的样本,X的分布 f ( x , θ ) f(x,\theta) f(x,θ)中含有未知参数 θ \theta θ,对给定的数 α ( 0 < α < 1 ) \alpha(0<\alpha<1) α(0<α<1),若有统计量 θ 1 ^ = θ 1 ^ ( X 1 , X 2 , . . . , X n ) \hat{\theta_1}=\hat{\theta_1}(X_1,X_2,...,X_n) θ1^=θ1^(X1,X2,...,Xn) θ 2 ^ = θ 2 ^ ( X 1 , X 2 , . . . , X n ) , ( θ 1 ^ < θ 2 ^ ) \hat{\theta_2}=\hat{\theta_2}(X_1,X_2,...,X_n),(\hat{\theta_1} < \hat{\theta_2}) θ2^=θ2^(X1,X2,...,Xn),(θ1^<θ2^),使得 P ( θ 1 ^ < θ < θ 2 ^ ) ⩾ 1 − α P(\hat{\theta_1} < \theta < \hat{\theta_2}) \geqslant 1-\alpha P(θ1^<θ<θ2^)1α

则称随机区间 ( θ 1 ^ , θ 2 ^ ) (\hat{\theta_1} , \hat{\theta_2}) (θ1^,θ2^) θ \theta θ的置信度(置信水平)为 α \alpha α的双侧置信区间,称 ( θ 1 ^ (\hat{\theta_1} (θ1^ θ 2 ^ ) \hat{\theta_2}) θ2^)是该双侧置信区间的置信下限和置信上限。

4.参考资料

  1. 参数估计(百度百科)
  2. 浅谈参数估计
  3. 点估计(百度百科)
  4. 概率笔记11——一维正态分布的最大似然估计
  5. 区间估计(百度百科)

想要获取最新文章推送或者私聊谈人生,请关注我的个人微信公众号:⬇️x-jeff的AI工坊⬇️
【数学基础】第十三课:参数估计_第1张图片

个人博客网站:https://shichaoxin.com

GitHub:https://github.com/x-jeff


你可能感兴趣的:(机器学习必备的数学基础,机器学习)