样本与抽样分布:统计推断的基石

目录

  • 引言
  • 6 样本与抽样分布
    • 6.1 总体与样本
      • 核心概念
    • 6.2 统计量:样本的数学摘要
      • 定义
      • 常用统计量
      • 重要性质证明: E ( S 2 ) = σ 2 E(S^2) = \sigma^2 E(S2)=σ2
    • 6.3 三大抽样分布:统计推断的支柱
      • 6.3.1 χ 2 \chi^2 χ2分布:多个独立标准正态分布变量的平方和
        • 定义
        • 性质
      • 6.3.2 t t t分布(学生氏分布)
        • 定义
        • 性质
      • 6.3.3 F F F分布
        • 定义
        • 性质
    • 6.4 正态总体的抽样分布定理
      • 6.4.1 单正态总体情形
      • 6.4.2 双正态总体情形

引言

从概率论到统计学,我们跨越了关键一步——样本与抽样分布是统计推断的基石。它们如同数据科学的’望远镜’,让我们能够通过有限样本窥见无限总体的奥秘。本章将建立总体与样本的桥梁,揭示统计量的分布规律,为后续的参数估计与假设检验奠定基础。

6 样本与抽样分布

6.1 总体与样本

核心概念

术语 符号表示 定义 示例
总体 N N N 研究对象的全体 全国大学生身高数据
个体 - 总体的基本单位 单个学生的身高
样本 n n n 从总体中抽取的部分个体 随机抽取100名学生
抽样 - 获取样本的过程 简单随机抽样

6.2 统计量:样本的数学摘要

定义

统计量 = 样本的函数 T ( X 1 , X 2 , ⋯   , X n ) T(X_1,X_2,\cdots,X_n) T(X1,X2,,Xn) 不依赖未知参数

常用统计量

统计量 公式 观察值 总体对应量
样本均值 X ˉ = 1 n ∑ X i \bar{X}=\frac{1}{n}\sum X_i Xˉ=n1Xi x ˉ = 1 n ∑ x i \bar{x}=\frac{1}{n}\sum x_i xˉ=n1xi 总体均值 μ \mu μ
样本方差 S 2 = 1 n − 1 ∑ ( X i − X ˉ ) 2 S^2=\frac{1}{n-1}\sum(X_i-\bar{X})^2 S2=n11(XiXˉ)2 s 2 = 1 n − 1 ∑ ( x i − x ˉ ) 2 s^2=\frac{1}{n-1}\sum(x_i-\bar{x})^2 s2=n11(xixˉ)2 总体方差 σ 2 \sigma^2 σ2
样本标准差 S = S 2 S=\sqrt{S^2} S=S2 s = s 2 s=\sqrt{s^2} s=s2 σ \sigma σ
样本k阶矩 A k = 1 n ∑ X i k A_k=\frac{1}{n}\sum X_i^k Ak=n1Xik a k = 1 n ∑ x i k a_k=\frac{1}{n}\sum x_i^k ak=n1xik 总体k阶矩
样本k阶中心矩 B k = 1 n ∑ ( X i − X ˉ ) k B_k = \frac{1}{n}\sum (X_i - \bar{X})^k Bk=n1(XiXˉ)k b k = 1 n ∑ ( x i − x ˉ ) k b_k = \frac{1}{n}\sum (x_i - \bar{x})^k bk=n1(xixˉ)k 总体k阶中心矩 E [ ( X − μ ) k ] E\left[(X - \mu)^k\right] E[(Xμ)k]

重要性质证明: E ( S 2 ) = σ 2 E(S^2) = \sigma^2 E(S2)=σ2

推导
E [ ∑ ( X i − X ˉ ) 2 ] = E [ ∑ X i 2 − n X ˉ 2 ] = ∑ E ( X i 2 ) − n E ( X ˉ 2 ) = n ( σ 2 + μ 2 ) − n ( σ 2 n + μ 2 ) = ( n − 1 ) σ 2 \begin{align*} E\left[\sum(X_i-\bar{X})^2\right] &= E\left[\sum X_i^2 - n\bar{X}^2\right] \\ &= \sum E(X_i^2) - nE(\bar{X}^2) \\ &= n(\sigma^2+\mu^2) - n\left(\frac{\sigma^2}{n} + \mu^2\right) \\ &= (n-1)\sigma^2 \end{align*} E[(XiXˉ)2]=E[Xi2nXˉ2]=E(Xi2)nE(Xˉ2)=n(σ2+μ2)n(nσ2+μ2)=(n1)σ2
∴ E ( S 2 ) = 1 n − 1 E [ ∑ ( X i − X ˉ ) 2 ] = σ 2 \therefore E(S^2) = \frac{1}{n-1}E\left[\sum(X_i-\bar{X})^2\right] = \sigma^2 E(S2)=n11E[(XiXˉ)2]=σ2

重点:分母 n − 1 n-1 n1(而非 n n n)确保样本方差是总体方差的无偏估计


6.3 三大抽样分布:统计推断的支柱

6.3.1 χ 2 \chi^2 χ2分布:多个独立标准正态分布变量的平方和

定义

Z 1 , ⋯   , Z n ∼ i.i.d N ( 0 , 1 ) Z_1,\cdots,Z_n \overset{\text{i.i.d}}{\sim} N(0,1) Z1,,Zni.i.dN(0,1),则统计量
Q = ∑ i = 1 n Z i 2 ∼ χ 2 ( n ) Q = \sum_{i=1}^n Z_i^2 \sim \chi^2(n) Q=i=1nZi2χ2(n),服从自由度n的 χ 2 \chi^2 χ2分布

性质
特征 说明
期望 E ( Q ) = n E(Q)=n E(Q)=n
方差 D ( Q ) = 2 n D(Q)=2n D(Q)=2n
可加性 χ 2 ( n 1 ) + χ 2 ( n 2 ) = χ 2 ( n 1 + n 2 ) \chi^2(n_1)+\chi^2(n_2)=\chi^2(n_1+n_2) χ2(n1)+χ2(n2)=χ2(n1+n2)
形态变化 n n n增大时趋近正态分布

6.3.2 t t t分布(学生氏分布)

定义

Z ∼ N ( 0 , 1 ) Z \sim N(0,1) ZN(0,1) Q ∼ χ 2 ( n ) Q \sim \chi^2(n) Qχ2(n)且独立,则
T = Z Q / n ∼ t ( n ) T = \frac{Z}{\sqrt{Q/n}} \sim t(n) T=Q/n Zt(n)

性质
特征 说明
对称性 关于y轴对称
尾部 比正态分布更厚尾
收敛性 k → ∞ k \to \infty k时趋近标准正态
应用场景 小样本均值推断

6.3.3 F F F分布

定义

U ∼ χ 2 ( d 1 ) U \sim \chi^2(d_1) Uχ2(d1) V ∼ χ 2 ( d 2 ) V \sim \chi^2(d_2) Vχ2(d2)且独立,则
F = U / d 1 V / d 2 ∼ F ( d 1 , d 2 ) F = \frac{U/d_1}{V/d_2} \sim F(d_1,d_2) F=V/d2U/d1F(d1,d2)

性质
特征 公式/说明
非对称性 右偏分布
倒数关系 F ∼ F ( d 1 , d 2 ) ⇒ 1 F ∼ F ( d 2 , d 1 ) F \sim F(d_1,d_2) \Rightarrow \frac{1}{F} \sim F(d_2,d_1) FF(d1,d2)F1F(d2,d1)
应用场景 方差分析、回归显著性检验

6.4 正态总体的抽样分布定理

6.4.1 单正态总体情形

X 1 , ⋯   , X n ∼ i.i.d N ( μ , σ 2 ) X_1,\cdots,X_n \overset{\text{i.i.d}}{\sim} N(\mu,\sigma^2) X1,,Xni.i.dN(μ,σ2)

统计量 分布形式 重要推论
样本均值 X ˉ ∼ N ( μ , σ 2 n ) \bar{X} \sim N(\mu, \frac{\sigma^2}{n}) XˉN(μ,nσ2) 标准化得 X ˉ − μ σ / n ∼ N ( 0 , 1 ) \frac{\bar{X}-\mu}{\sigma/\sqrt{n}} \sim N(0,1) σ/n XˉμN(0,1)
样本方差 ( n − 1 ) S 2 σ 2 ∼ χ 2 ( n − 1 ) \frac{(n-1)S^2}{\sigma^2} \sim \chi^2(n-1) σ2(n1)S2χ2(n1) 卡方分布性质
均值方差比 X ˉ − μ S / n ∼ t ( n − 1 ) \frac{\bar{X}-\mu}{S/\sqrt{n}} \sim t(n-1) S/n Xˉμt(n1) t检验基础

6.4.2 双正态总体情形

X 1 , ⋯   , X m ∼ N ( μ 1 , σ 1 2 ) X_1,\cdots,X_m \sim N(\mu_1,\sigma_1^2) X1,,XmN(μ1,σ12) Y 1 , ⋯   , Y n ∼ N ( μ 2 , σ 2 2 ) Y_1,\cdots,Y_n \sim N(\mu_2,\sigma_2^2) Y1,,YnN(μ2,σ22)

比较对象 统计量 分布
均值差 ( X ˉ − Y ˉ ) − ( μ 1 − μ 2 ) σ 1 2 m + σ 2 2 n \frac{(\bar{X}-\bar{Y})-(\mu_1-\mu_2)}{\sqrt{\frac{\sigma_1^2}{m}+\frac{\sigma_2^2}{n}}} mσ12+nσ22 (XˉYˉ)(μ1μ2) N ( 0 , 1 ) N(0,1) N(0,1)(方差已知)
方差比 S 1 2 / σ 1 2 S 2 2 / σ 2 2 \frac{S_1^2/\sigma_1^2}{S_2^2/\sigma_2^2} S22/σ22S12/σ12 F ( m − 1 , n − 1 ) F(m-1,n-1) F(m1,n1)
等方差均值 ( X ˉ − Y ˉ ) − ( μ 1 − μ 2 ) S p 1 m + 1 n \frac{(\bar{X}-\bar{Y})-(\mu_1-\mu_2)}{S_p\sqrt{\frac{1}{m}+\frac{1}{n}}} Spm1+n1 (XˉYˉ)(μ1μ2) t ( m + n − 2 ) t(m+n-2) t(m+n2)
其中 S p 2 = ( m − 1 ) S 1 2 + ( n − 1 ) S 2 2 m + n − 2 S_p^2=\frac{(m-1)S_1^2+(n-1)S_2^2}{m+n-2} Sp2=m+n2(m1)S12+(n1)S22

S p S_p Sp称为合并标准差

你可能感兴趣的:(概率论与数理统计,概率论)