参数估计是统计推断的一种。根据从总体中抽取的随机样本来估计总体分布中未知参数的过程。
从估计形式看,可分为:
参数估计和假设检验是统计推断的两个组成部分,它们都是利用样本对总体进行某种推断,但推断的角度不同。
参数估计讨论的是用样本统计量估计总体参数的方法,总体参数在估计前是未知的。
而在假设检验中,则是先对总体参数值提出一个假设,然后利用样本信息去检验这个假设是否成立。
点估计是用样本统计量来估计总体参数,因为样本统计量为数轴上某一点值,估计的结果也以一个点的数值表示,所以称为点估计。
本文主要介绍两种点估计的方法:
矩估计的基本思想是根据大数定律,利用样本矩对总体分布矩进行估计。然后利用总体矩与参数的关系来对参数进行估计。
接下来通过两个例子来说明下矩估计的用法。
X服从两点分布取值为{-1,1}, P ( − 1 ) = 1 − θ , P ( 1 ) = θ P(-1)=1-\theta,P(1)=\theta P(−1)=1−θ,P(1)=θ。现在独立重复实验n次,得到样本 X 1 , . . . , X n X_1,...,X_n X1,...,Xn。请利用矩估计来估计参数 θ \theta θ。
首先考虑哪一个矩可以用来估计参数 θ \theta θ,先尝试计算其一阶原点矩和二阶原点矩分别为:
E ( X ) = ( 1 − θ ) ⋅ ( − 1 ) + θ ⋅ 1 = 2 θ − 1 E(X)=(1-\theta) \cdot (-1) + \theta \cdot 1=2 \theta -1 E(X)=(1−θ)⋅(−1)+θ⋅1=2θ−1
E ( X 2 ) = ( 1 − θ ) ⋅ 1 + θ ⋅ 1 = 1 E(X^2)=(1-\theta) \cdot 1 + \theta \cdot 1=1 E(X2)=(1−θ)⋅1+θ⋅1=1
我们可以看到二阶原点矩和参数 θ \theta θ没有关系,而一阶原点矩和 θ \theta θ的关系如下:
θ = 1 + E ( X ) 2 \theta=\frac{1+E(X)}{2} θ=21+E(X)
因此我们使用一阶原点矩进行总体参数的估计:
θ ^ = 1 + X ˉ 2 \hat{\theta}=\frac{1+\bar{X}}{2} θ^=21+Xˉ
X服从参数为 θ = ( μ , σ ) \theta=(\mu,\sigma) θ=(μ,σ)的正态分布,独立重复实验n次得到样本 X 1 , . . . , X n X_1,...,X_n X1,...,Xn。请利用矩估计来估计参数 θ \theta θ。
首先考虑哪一个矩可以用来估计参数 θ \theta θ,先尝试计算其一阶、二阶和三阶原点矩:
原则上二阶矩和三阶矩都可以用来估计参数 θ \theta θ,所以矩估计一般来讲是不唯一的。当有多种选择的时候,我们尽可能选择阶数较小的矩:
μ ^ = X ˉ ; σ ^ = X 2 ˉ − X ˉ 2 \hat{\mu}=\bar{X};\hat{\sigma}=\sqrt{\bar{X^2}-\bar{X}^2} μ^=Xˉ;σ^=X2ˉ−Xˉ2
给定随机变量的分布与未知参数,利用观测到的样本计算似然函数。选择最大化似然函数的参数作为参数估计量。
之前博客中已经介绍过该概念,在此不再赘述,请点击下方链接跳转:
接下来依旧以正态分布为例,使用极大似然估计对其进行参数估计。
X服从参数为 θ = ( μ , σ ) \theta=(\mu,\sigma) θ=(μ,σ)的正态分布,独立重复实验n次得到样本 X 1 , . . . , X n X_1,...,X_n X1,...,Xn。请利用极大似然估计来估计参数 θ \theta θ。
构建其似然函数为:
L ( μ , σ 2 ) = ∏ i = 1 n f ( X i ; μ , σ 2 ) = ∏ i = 1 n 1 2 π σ e x p ( − ( X i − μ ) 2 2 σ 2 ) = ( 1 2 π σ ) n e x p ( − ∑ i = 1 n ( X i − μ ) 2 2 σ 2 ) = ( 2 π σ 2 ) − n 2 e x p ( − ∑ i = 1 n ( X i − μ ) 2 2 σ 2 ) \begin{align*} L(\mu,\sigma^2) & = \prod^n_{i=1} f(X_i;\mu,\sigma^2) \tag{1} \\ & = \prod^n_{i=1} \frac{1}{\sqrt{2\pi} \sigma} exp(-\frac{(X_i-\mu)^2}{2\sigma^2}) \tag{2} \\ & = (\frac{1}{\sqrt{2\pi} \sigma})^n exp(-\sum^n_{i=1} \frac{(X_i-\mu)^2}{2\sigma^2} ) \tag{3} \\ & = (2\pi \sigma^2)^{-\frac{n}{2}} exp(-\sum^n_{i=1} \frac{(X_i-\mu)^2}{2\sigma^2} ) \tag{4}\end{align*} L(μ,σ2)=i=1∏nf(Xi;μ,σ2)=i=1∏n2πσ1exp(−2σ2(Xi−μ)2)=(2πσ1)nexp(−i=1∑n2σ2(Xi−μ)2)=(2πσ2)−2nexp(−i=1∑n2σ2(Xi−μ)2)(1)(2)(3)(4)
为了简化计算,这里取对数似然:
ln L ( μ , σ 2 ) = ln ( ( 2 π σ 2 ) − n 2 e x p ( − ∑ i = 1 n ( X i − μ ) 2 2 σ 2 ) ) = ln ( ( 2 π σ 2 ) − n 2 ) + ln ( e x p ( − ∑ i = 1 n ( X i − μ ) 2 2 σ 2 ) ) = − n 2 ln ( 2 π σ 2 ) − ∑ i = 1 n ( X i − μ ) 2 2 σ 2 = − n 2 ( ln ( 2 π ) + ln σ 2 ) − 1 2 σ 2 ∑ i = 1 n ( X i − μ ) 2 = − n 2 ln ( 2 π ) − n 2 ln σ 2 − 1 2 σ 2 ∑ i = 1 n ( X i − μ ) 2 \begin{align*} \ln L(\mu,\sigma^2) &= \ln ((2\pi \sigma^2)^{-\frac{n}{2}} exp(-\sum^n_{i=1} \frac{(X_i-\mu)^2}{2\sigma^2} )) \tag{5} \\&= \ln ( (2\pi \sigma^2)^{-\frac{n}{2}} ) + \ln ( exp(-\sum^n_{i=1} \frac{(X_i-\mu)^2}{2\sigma^2} ) ) \tag{6} \\&= -\frac{n}{2} \ln (2\pi \sigma^2) - \sum^n_{i=1} \frac{(X_i-\mu)^2}{2\sigma^2} \tag{7} \\&= -\frac{n}{2} (\ln (2\pi) + \ln \sigma^2 ) - \frac{1}{2\sigma^2} \sum^n_{i=1} (X_i - \mu)^2 \tag{8} \\&= -\frac{n}{2} \ln {(2\pi)} -\frac{n}{2} \ln \sigma^2 - \frac{1}{2\sigma^2} \sum^n_{i=1} (X_i-\mu)^2 \tag{9} \end{align*} lnL(μ,σ2)=ln((2πσ2)−2nexp(−i=1∑n2σ2(Xi−μ)2))=ln((2πσ2)−2n)+ln(exp(−i=1∑n2σ2(Xi−μ)2))=−2nln(2πσ2)−i=1∑n2σ2(Xi−μ)2=−2n(ln(2π)+lnσ2)−2σ21i=1∑n(Xi−μ)2=−2nln(2π)−2nlnσ2−2σ21i=1∑n(Xi−μ)2(5)(6)(7)(8)(9)
上述推导用到以下公式:
- log a M N = log a M + log a N \log_a MN=\log_a M+\log_a N logaMN=logaM+logaN。
- log a M N = log a M − log a N \log_a \frac{M}{N}=\log_a M-\log_a N logaNM=logaM−logaN。
- log a M n = n log a M \log_a M^n=n\log_a M logaMn=nlogaM。
然后分别对 μ , σ 2 \mu,\sigma^2 μ,σ2求偏导数,并使其等于0,即极值点( σ 2 \sigma^2 σ2看作一个整体求偏导):
∂ ln L ∂ μ = 1 σ 2 ∑ i = 1 n ( X i − μ ) = 0 \frac{\partial \ln L}{\partial \mu} = \frac{1}{\sigma^2} \sum^n_{i=1} (X_i-\mu)=0 ∂μ∂lnL=σ21i=1∑n(Xi−μ)=0
∂ ln L ∂ σ 2 = − n 2 σ 2 + 1 2 σ 4 ∑ i = 1 n ( X i − μ ) 2 = 0 \frac{\partial \ln L}{\partial \sigma^2}=-\frac{n}{2\sigma^2}+\frac{1}{2\sigma^4} \sum^n_{i=1} (X_i-\mu)^2=0 ∂σ2∂lnL=−2σ2n+2σ41i=1∑n(Xi−μ)2=0
化简可得最终的参数估计结果:
μ ^ = 1 n ∑ i = 1 n X i = x ˉ \hat{\mu}=\frac{1}{n} \sum^n_{i=1} X_i=\bar{x} μ^=n1i=1∑nXi=xˉ
σ 2 ^ = 1 n ∑ i = 1 n ( X i − x ˉ ) 2 \hat{\sigma^2}=\frac{1}{n} \sum^n_{i=1} (X_i - \bar{x})^2 σ2^=n1i=1∑n(Xi−xˉ)2
如果我们使用不同的点估计方法得到了不同的参数估计量,那么我们应该选择哪一个作为最终的参数估计量呢?这个时候我们就需要一个点估计的评判准则来帮我们做出决定。
点估计的评判准则有很多,这里只给出较常用的四个:
接下来我们对前三个准则进行详细的说明。
定义:
设 θ ^ = θ ^ ( X 1 , X 2 , . . . , X n ) \hat{\theta}=\hat{\theta}(X_1,X_2,...,X_n) θ^=θ^(X1,X2,...,Xn)是参数 θ \theta θ的一个估计量,如果 E ( θ ^ ) E(\hat{\theta}) E(θ^)存在,且 E ( θ ^ ) = θ E(\hat{\theta})=\theta E(θ^)=θ,则称 θ ^ \hat{\theta} θ^为 θ \theta θ的无偏估计量,也称 θ ^ \hat{\theta} θ^作为 θ \theta θ的估计具有无偏性。否则称 θ ^ \hat{\theta} θ^是 θ \theta θ的有偏估计量。
其中, E ( θ ^ ) − θ E(\hat{\theta})-\theta E(θ^)−θ称为系统误差。无偏估计就意味着没有系统误差。
设 θ ^ = θ ^ ( X 1 , X 2 , . . . , X n ) \hat{\theta}=\hat{\theta}(X_1,X_2,...,X_n) θ^=θ^(X1,X2,...,Xn)是参数 θ \theta θ的一个估计量,如果 E ( θ ^ ) E(\hat{\theta}) E(θ^)存在,且 lim n → ∞ E ( θ ^ ) = θ \lim_{n\to \infty} E(\hat{\theta})=\theta limn→∞E(θ^)=θ,则称 θ ^ \hat{\theta} θ^为 θ \theta θ的渐进无偏估计量。
以2.2.1部分的结果为例,其实我们得到的 σ 2 ^ = 1 n ∑ i = 1 n ( X i − x ˉ ) 2 \hat{\sigma^2}=\frac{1}{n} \sum^n_{i=1} (X_i - \bar{x})^2 σ2^=n1∑i=1n(Xi−xˉ)2是 σ 2 \sigma^2 σ2的有偏估计量。 σ 2 \sigma^2 σ2的无偏估计量应该为 1 n − 1 ∑ i = 1 n ( X i − x ˉ ) 2 \frac{1}{n-1}\sum^n_{i=1}(X_i-\bar{x})^2 n−11∑i=1n(Xi−xˉ)2。
当针对同一问题,我们得到的无偏估计量有多个时,怎么去选择或者说比较其之间的优劣呢?答案就是通过“有效性”这一评判准则。
⚠️“有效性”准则使用的前提必须是在无偏估计量之间。
定义:
θ 1 ^ = θ 1 ^ ( X 1 , X 2 , . . . , X n ) , θ 2 ^ = θ 2 ^ ( X 1 , X 2 , . . . , X n ) \hat{\theta_1}=\hat{\theta_1}(X_1,X_2,...,X_n),\hat{\theta_2}=\hat{\theta_2}(X_1,X_2,...,X_n) θ1^=θ1^(X1,X2,...,Xn),θ2^=θ2^(X1,X2,...,Xn)是 θ \theta θ的无偏估计量,如果 D ( θ 1 ^ ) ⩽ D ( θ 2 ^ ) D(\hat{\theta_1})\leqslant D(\hat{\theta_2}) D(θ1^)⩽D(θ2^),则称 θ 1 ^ \hat{\theta_1} θ1^比 θ 2 ^ \hat{\theta_2} θ2^有效。
“有效性”准则的证明需要用到柯西不等式(详细证明过程不再介绍)。
柯西不等式:
∑ i = 1 n a i 2 ∑ i = 1 n b i 2 ⩾ ( ∑ i = 1 n a i b i ) 2 \sum^n_{i=1} a_i^2 \sum^n_{i=1} b_i^2 \geqslant (\sum^n_{i=1} a_i b_i)^2 ∑i=1nai2∑i=1nbi2⩾(∑i=1naibi)2
‼️之前讨论的无偏性和有效性都是基于样本容量有限的前提下。
在样本容量有限的前提下,无偏估计量一般不等于未知参数。如果我们希望无偏估计量随着样本容量的增加能够越来越逼近未知参数,这时就得考虑“相合性”(也称“一致性”)规则。
定义:
设 θ ^ = θ ^ ( X 1 , X 2 , . . . , X n ) \hat{\theta}=\hat{\theta}(X_1,X_2,...,X_n) θ^=θ^(X1,X2,...,Xn)是未知参数 θ \theta θ的一个估计量,如果对于任意的正数 ϵ \epsilon ϵ,有 lim n → ∞ P { ∣ θ ^ − θ ∣ ⩾ ϵ } = 0 \lim_{n\to \infty} P\{\mid \hat{\theta} - \theta \mid \geqslant \epsilon \}=0 limn→∞P{∣θ^−θ∣⩾ϵ}=0,则称 θ ^ \hat{\theta} θ^为 θ \theta θ的相合估计量。
⚠️矩估计量都是相合估计量(这是由大数定律保证的)。
区间估计是从点估计值和抽样标准误差出发,按给定的概率值建立包含待估计参数的区间。其中这个给定的概率值称为置信度或置信水平,这个建立起来的包含待估计参数的区间称为置信区间,指总体参数值落在样本统计值某一区内的概率。
置信区间定义:
设 X 1 , X 2 , . . . , X n X_1,X_2,...,X_n X1,X2,...,Xn是来自总体X的样本,X的分布 f ( x , θ ) f(x,\theta) f(x,θ)中含有未知参数 θ \theta θ,对给定的数 α ( 0 < α < 1 ) \alpha(0<\alpha<1) α(0<α<1),若有统计量 θ 1 ^ = θ 1 ^ ( X 1 , X 2 , . . . , X n ) \hat{\theta_1}=\hat{\theta_1}(X_1,X_2,...,X_n) θ1^=θ1^(X1,X2,...,Xn)和 θ 2 ^ = θ 2 ^ ( X 1 , X 2 , . . . , X n ) , ( θ 1 ^ < θ 2 ^ ) \hat{\theta_2}=\hat{\theta_2}(X_1,X_2,...,X_n),(\hat{\theta_1} < \hat{\theta_2}) θ2^=θ2^(X1,X2,...,Xn),(θ1^<θ2^),使得 P ( θ 1 ^ < θ < θ 2 ^ ) ⩾ 1 − α P(\hat{\theta_1} < \theta < \hat{\theta_2}) \geqslant 1-\alpha P(θ1^<θ<θ2^)⩾1−α。
则称随机区间 ( θ 1 ^ , θ 2 ^ ) (\hat{\theta_1} , \hat{\theta_2}) (θ1^,θ2^)是 θ \theta θ的置信度(置信水平)为 α \alpha α的双侧置信区间,称 ( θ 1 ^ (\hat{\theta_1} (θ1^和 θ 2 ^ ) \hat{\theta_2}) θ2^)是该双侧置信区间的置信下限和置信上限。
想要获取最新文章推送或者私聊谈人生,请关注我的个人微信公众号:⬇️x-jeff的AI工坊⬇️
个人博客网站:https://shichaoxin.com
GitHub:https://github.com/x-jeff