参数估计:从样本窥见总体

目录

  • 引言
  • 7 参数估计
    • 7.1 参数估计的基本概念
      • 7.1.1 估计问题类型
      • 7.1.2 估计量评价标准
    • 7.2 点估计方法
      • 7.2.1 矩估计法(MME)
      • 7.2.2 最大似然估计(MLE)
    • 7.3 区间估计原理
      • 7.3.1 置信区间定义
      • 7.3.2 枢轴量法(关键步骤)
    • 7.4 单正态总体参数区间估计
      • 7.4.1 均值 μ \mu μ的置信区间
      • 7.4.2 方差 σ 2 \sigma^2 σ2的置信区间
    • 7.5 双正态总体参数区间估计
      • 7.5.1 均值差 μ 1 − μ 2 \mu_1-\mu_2 μ1μ2的区间估计
      • 7.5.2 方差比 σ 1 2 / σ 2 2 \sigma_1^2/\sigma_2^2 σ12/σ22的区间估计
    • 7.6 单侧置信区间
    • 7.7 置信区间公式
      • **参数定义**
      • **符号说明**
    • 估计方法对比

引言

参数估计是统计推断的’望远镜’——通过有限的样本数据,我们能够推断出无限总体的未知特征。本章将系统介绍点估计和区间估计两大方法论,建立从样本到总体的科学推断桥梁。

7 参数估计

7.1 参数估计的基本概念

7.1.1 估计问题类型

估计类型 目标 输出形式 示例
点估计 给出参数的单个最佳猜测 具体数值 θ ^ \hat{\theta} θ^ μ ^ = 25.3 \hat{\mu}=25.3 μ^=25.3cm
区间估计 给出参数的可信范围 区间 ( θ ‾ , θ ‾ ) (\underline{\theta},\overline{\theta}) (θ,θ) μ ∈ ( 24.8 , 25.8 ) \mu\in(24.8,25.8) μ(24.8,25.8)cm

7.1.2 估计量评价标准

估计量评价
无偏性
有效性
一致性
充分性
  • 无偏性 E ( θ ^ ) = θ E(\hat{\theta})=\theta E(θ^)=θ
    (如样本方差 S 2 S^2 S2 σ 2 \sigma^2 σ2的无偏估计)
  • 有效性:方差越小越有效
    (比较 θ ^ 1 \hat{\theta}_1 θ^1 θ ^ 2 \hat{\theta}_2 θ^2 D ( ⋅ ) D(\cdot) D()
  • 一致性:样本量增大时收敛于真值
    lim ⁡ n → ∞ P ( ∣ θ ^ n − θ ∣ < ε ) = 1 \lim_{n\to\infty}P(|\hat{\theta}_n-\theta|<\varepsilon)=1 limnP(θ^nθ<ε)=1

7.2 点估计方法

7.2.1 矩估计法(MME)

核心思想:矩估计法的核心思想是:用样本矩 A l A_l Al(如样本均值、样本方差等)代替总体矩 μ l \mu_l μl(如总体期望、总体方差等),通过建立方程组求解参数估计。其理论依据是大数定律:当样本量足够大时,样本矩依概率收敛于总体矩。

求解步骤

  1. 建立方程:样本k阶矩 = 总体k阶矩
    1 n ∑ X i k = E ( X k ) \frac{1}{n}\sum X_i^k = E(X^k) n1Xik=E(Xk)
    • 一个参数 μ 1 = E ( X ) \mu_1 = E(X) μ1=E(X)
    • 两个参数 μ 2 = E ( X 2 ) = D ( X ) + [ E ( X ) ] 2 \mu_2 = E(X^2)=D(X)+[E(X)]^2 μ2=E(X2)=D(X)+[E(X)]2
  2. 解方程组得参数估计
    • 样本矩 A l = 1 n ∑ X i l A_l=\frac{1}{n} \sum{X_i^l} Al=n1Xil

示例:指数分布 E x p ( λ ) Exp(\lambda) Exp(λ)的矩估计

  • E ( X ) = 1 / λ E(X)=1/\lambda E(X)=1/λ X ˉ = 1 / λ ^ \bar{X}=1/\hat{\lambda} Xˉ=1/λ^ λ ^ = 1 / X ˉ \hat{\lambda}=1/\bar{X} λ^=1/Xˉ

7.2.2 最大似然估计(MLE)

核心思想:选择使样本出现概率最大的参数值

求解步骤

  1. 写似然函数 L ( θ ) = ∏ f ( x i ; θ ) L(\theta)=\prod f(x_i;\theta) L(θ)=f(xi;θ)。这是所有样本点概率密度函数或概率质量函数的乘积(对于独立同分布样本)
  2. 取对数 ℓ ( θ ) = ln ⁡ L ( θ ) \ell(\theta)=\ln L(\theta) (θ)=lnL(θ)
  3. 求导 ∂ ℓ ∂ θ = 0 \frac{\partial\ell}{\partial\theta}=0 θ=0
  4. 解方程得 θ ^ \hat{\theta} θ^

注意:取对数是为了使连乘变为连加,方便计算取极值

示例:正态分布 N ( μ , σ 2 ) N(\mu,\sigma^2) N(μ,σ2)的MLE

  • μ ^ = X ˉ \hat{\mu}=\bar{X} μ^=Xˉ
  • σ ^ 2 = 1 n ∑ ( X i − X ˉ ) 2 \hat{\sigma}^2=\frac{1}{n}\sum(X_i-\bar{X})^2 σ^2=n1(XiXˉ)2 (有偏估计量)

重要性质:MLE具有渐进正态性:
n ( θ ^ M L E − θ ) → d N ( 0 , 1 I ( θ ) ) \sqrt{n}(\hat{\theta}_{MLE}-\theta) \xrightarrow{d} N(0,\frac{1}{I(\theta)}) n (θ^MLEθ)d N(0,I(θ)1)
其中 I ( θ ) I(\theta) I(θ)为Fisher信息量


7.3 区间估计原理

7.3.1 置信区间定义

设参数 θ \theta θ,对给定 α \alpha α,有:
P ( θ ‾ < θ < θ ‾ ) = 1 − α P(\underline{\theta} < \theta < \overline{\theta}) = 1-\alpha P(θ<θ<θ)=1α
( θ ‾ , θ ‾ ) (\underline{\theta},\overline{\theta}) (θ,θ)称为 100 ( 1 − α ) % 100(1-\alpha)\% 100(1α)%置信区间

7.3.2 枢轴量法(关键步骤)

  1. 构造包含参数 θ \theta θ和样本 T 1 T_1 T1, T 2 T_2 T2…… T n T_n Tn枢轴量 G ( T , θ ) G(T,\theta) G(T,θ)
    (其分布已知且与 θ \theta θ无关)
  2. 确定 a , b a,b a,b使得 P ( a < G < b ) = 1 − α P(a < G < b) = 1-\alpha P(a<G<b)=1α
  3. 解不等式得置信区间

7.4 单正态总体参数区间估计

7.4.1 均值 μ \mu μ的置信区间

条件 枢轴量 100 ( 1 − α ) % 100(1-\alpha)\% 100(1α)%置信区间
σ \sigma σ已知 X ˉ − μ σ / n ∼ N ( 0 , 1 ) \frac{\bar{X}-\mu}{\sigma/\sqrt{n}}\sim N(0,1) σ/n XˉμN(0,1) x ˉ ± z α / 2 σ n \bar{x} \pm z_{\alpha/2}\frac{\sigma}{\sqrt{n}} xˉ±zα/2n σ
σ \sigma σ未知 X ˉ − μ S / n ∼ t ( n − 1 ) \frac{\bar{X}-\mu}{S/\sqrt{n}}\sim t(n-1) S/n Xˉμt(n1) x ˉ ± t α / 2 ( n − 1 ) s n \bar{x} \pm t_{\alpha/2}(n-1)\frac{s}{\sqrt{n}} xˉ±tα/2(n1)n s

7.4.2 方差 σ 2 \sigma^2 σ2的置信区间

条件 枢轴量 100 ( 1 − α ) % 100(1-\alpha)\% 100(1α)%置信区间
μ \mu μ未知 ( n − 1 ) S 2 σ 2 ∼ χ 2 ( n − 1 ) \frac{(n-1)S^2}{\sigma^2}\sim \chi^2(n-1) σ2(n1)S2χ2(n1) ( ( n − 1 ) s 2 χ α / 2 2 ( n − 1 ) , ( n − 1 ) s 2 χ 1 − α / 2 2 ( n − 1 ) ) \left( \frac{(n-1)s^2}{\chi^2_{\alpha/2}(n-1)}, \frac{(n-1)s^2}{\chi^2_{1-\alpha/2}(n-1)} \right) (χα/22(n1)(n1)s2,χ1α/22(n1)(n1)s2)

7.5 双正态总体参数区间估计

7.5.1 均值差 μ 1 − μ 2 \mu_1-\mu_2 μ1μ2的区间估计

条件 枢轴量 100 ( 1 − α ) % 100(1-\alpha)\% 100(1α)%置信区间
σ 1 , σ 2 \sigma_1,\sigma_2 σ1,σ2已知 ( X ˉ − Y ˉ ) − ( μ 1 − μ 2 ) σ 1 2 / m + σ 2 2 / n ∼ N ( 0 , 1 ) \frac{(\bar{X}-\bar{Y})-(\mu_1-\mu_2)}{\sqrt{\sigma_1^2/m+\sigma_2^2/n}}\sim N(0,1) σ12/m+σ22/n (XˉYˉ)(μ1μ2)N(0,1) ( x ˉ − y ˉ ) ± z α / 2 σ 1 2 m + σ 2 2 n (\bar{x}-\bar{y}) \pm z_{\alpha/2}\sqrt{\frac{\sigma_1^2}{m}+\frac{\sigma_2^2}{n}} (xˉyˉ)±zα/2mσ12+nσ22
σ 1 = σ 2 \sigma_1=\sigma_2 σ1=σ2未知 ( X ˉ − Y ˉ ) − ( μ 1 − μ 2 ) S p 1 / m + 1 / n ∼ t ( m + n − 2 ) \frac{(\bar{X}-\bar{Y})-(\mu_1-\mu_2)}{S_p\sqrt{1/m+1/n}}\sim t(m+n-2) Sp1/m+1/n (XˉYˉ)(μ1μ2)t(m+n2) ( x ˉ − y ˉ ) ± t α / 2 ( m + n − 2 ) s p 1 m + 1 n (\bar{x}-\bar{y}) \pm t_{\alpha/2}(m+n-2)s_p\sqrt{\frac{1}{m}+\frac{1}{n}} (xˉyˉ)±tα/2(m+n2)spm1+n1
其中 s p 2 = ( m − 1 ) s 1 2 + ( n − 1 ) s 2 2 m + n − 2 s_p^2=\frac{(m-1)s_1^2+(n-1)s_2^2}{m+n-2} sp2=m+n2(m1)s12+(n1)s22

7.5.2 方差比 σ 1 2 / σ 2 2 \sigma_1^2/\sigma_2^2 σ12/σ22的区间估计

条件 枢轴量 100 ( 1 − α ) % 100(1-\alpha)\% 100(1α)%置信区间
μ 1 , μ 2 \mu_1,\mu_2 μ1,μ2未知 S 1 2 / S 2 2 σ 1 2 / σ 2 2 ∼ F ( m − 1 , n − 1 ) \frac{S_1^2/S_2^2}{\sigma_1^2/\sigma_2^2}\sim F(m-1,n-1) σ12/σ22S12/S22F(m1,n1) ( s 1 2 / s 2 2 F α / 2 ( m − 1 , n − 1 ) , s 1 2 / s 2 2 F 1 − α / 2 ( m − 1 , n − 1 ) ) \left( \frac{s_1^2/s_2^2}{F_{\alpha/2}(m-1,n-1)}, \frac{s_1^2/s_2^2}{F_{1-\alpha/2}(m-1,n-1)} \right) (Fα/2(m1,n1)s12/s22,F1α/2(m1,n1)s12/s22)

7.6 单侧置信区间

条件 参数类型 单侧置信区间公式 示例场景
σ \sigma σ已知 均值 μ \mu μ下限 x ˉ − z α ⋅ σ n \bar{x} - z_{\alpha} \cdot \frac{\sigma}{\sqrt{n}} xˉzαn σ 职工家庭月收入的最低下限
σ \sigma σ未知 均值 μ \mu μ下限 x ˉ − t α ( n − 1 ) ⋅ s n \bar{x} - t_{\alpha}(n-1) \cdot \frac{s}{\sqrt{n}} xˉtα(n1)n s 化学药品杂质含量的上限
μ \mu μ未知 方差 σ 2 \sigma^2 σ2上限 ( n − 1 ) s 2 χ 1 − α 2 ( n − 1 ) \frac{(n-1)s^2}{\chi^2_{1-\alpha}(n-1)} χ1α2(n1)(n1)s2 电子产品寿命的最小置信下限

注意:下限 α \alpha α,上限 1 − α 1-\alpha 1α


7.7 置信区间公式

给定置信水平 1 − α 1 - \alpha 1α,置信区间为:
( p 1 , p 2 ) (p_1, p_2) (p1,p2)
其中:
p 1 = 1 2 a ( − b − b 2 − 4 a c ) , p 2 = 1 2 a ( − b + b 2 − 4 a c ) p_1 = \frac{1}{2a} \left( -b - \sqrt{b^2 - 4ac} \right), \quad p_2 = \frac{1}{2a} \left( -b + \sqrt{b^2 - 4ac} \right) p1=2a1(bb24ac ),p2=2a1(b+b24ac )


参数定义

a = n + z α / 2 2 a = n + z_{\alpha/2}^2 a=n+zα/22
b = − 2 n X ‾ − z α / 2 2 b = -2n\overline{X} - z_{\alpha/2}^2 b=2nXzα/22
c = n X ‾ c = n\overline{X} c=nX


符号说明

  • n n n:样本容量
  • X ‾ \overline{X} X:样本均值(大写 X X X 上加横线)
  • z α / 2 z_{\alpha/2} zα/2:标准正态分布的上 α / 2 \alpha/2 α/2 分位数

估计方法对比

方法 优点 局限 适用场景
矩估计 计算简单,无需分布假设 可能不唯一,效率低 初步估计,复杂分布
MLE 渐进最优,可拓展性好 可能无解析解 精确推断,大样本
区间估计 提供不确定性量化 计算复杂 可靠性要求高的决策

你可能感兴趣的:(概率论与数理统计,概率论,机器学习,人工智能)