从概率论到统计学,我们跨越了关键一步——样本与抽样分布是统计推断的基石。它们如同数据科学的’望远镜’,让我们能够通过有限样本窥见无限总体的奥秘。本章将建立总体与样本的桥梁,揭示统计量的分布规律,为后续的参数估计与假设检验奠定基础。
术语 | 符号表示 | 定义 | 示例 |
---|---|---|---|
总体 | N N N | 研究对象的全体 | 全国大学生身高数据 |
个体 | - | 总体的基本单位 | 单个学生的身高 |
样本 | n n n | 从总体中抽取的部分个体 | 随机抽取100名学生 |
抽样 | - | 获取样本的过程 | 简单随机抽样 |
统计量 = 样本的函数 T ( X 1 , X 2 , ⋯ , X n ) T(X_1,X_2,\cdots,X_n) T(X1,X2,⋯,Xn) 不依赖未知参数
统计量 | 公式 | 观察值 | 总体对应量 |
---|---|---|---|
样本均值 | X ˉ = 1 n ∑ X i \bar{X}=\frac{1}{n}\sum X_i Xˉ=n1∑Xi | x ˉ = 1 n ∑ x i \bar{x}=\frac{1}{n}\sum x_i xˉ=n1∑xi | 总体均值 μ \mu μ |
样本方差 | S 2 = 1 n − 1 ∑ ( X i − X ˉ ) 2 S^2=\frac{1}{n-1}\sum(X_i-\bar{X})^2 S2=n−11∑(Xi−Xˉ)2 | s 2 = 1 n − 1 ∑ ( x i − x ˉ ) 2 s^2=\frac{1}{n-1}\sum(x_i-\bar{x})^2 s2=n−11∑(xi−xˉ)2 | 总体方差 σ 2 \sigma^2 σ2 |
样本标准差 | S = S 2 S=\sqrt{S^2} S=S2 | s = s 2 s=\sqrt{s^2} s=s2 | σ \sigma σ |
样本k阶矩 | A k = 1 n ∑ X i k A_k=\frac{1}{n}\sum X_i^k Ak=n1∑Xik | a k = 1 n ∑ x i k a_k=\frac{1}{n}\sum x_i^k ak=n1∑xik | 总体k阶矩 |
样本k阶中心矩 | B k = 1 n ∑ ( X i − X ˉ ) k B_k = \frac{1}{n}\sum (X_i - \bar{X})^k Bk=n1∑(Xi−Xˉ)k | b k = 1 n ∑ ( x i − x ˉ ) k b_k = \frac{1}{n}\sum (x_i - \bar{x})^k bk=n1∑(xi−xˉ)k | 总体k阶中心矩 E [ ( X − μ ) k ] E\left[(X - \mu)^k\right] E[(X−μ)k] |
推导:
E [ ∑ ( X i − X ˉ ) 2 ] = E [ ∑ X i 2 − n X ˉ 2 ] = ∑ E ( X i 2 ) − n E ( X ˉ 2 ) = n ( σ 2 + μ 2 ) − n ( σ 2 n + μ 2 ) = ( n − 1 ) σ 2 \begin{align*} E\left[\sum(X_i-\bar{X})^2\right] &= E\left[\sum X_i^2 - n\bar{X}^2\right] \\ &= \sum E(X_i^2) - nE(\bar{X}^2) \\ &= n(\sigma^2+\mu^2) - n\left(\frac{\sigma^2}{n} + \mu^2\right) \\ &= (n-1)\sigma^2 \end{align*} E[∑(Xi−Xˉ)2]=E[∑Xi2−nXˉ2]=∑E(Xi2)−nE(Xˉ2)=n(σ2+μ2)−n(nσ2+μ2)=(n−1)σ2
∴ E ( S 2 ) = 1 n − 1 E [ ∑ ( X i − X ˉ ) 2 ] = σ 2 \therefore E(S^2) = \frac{1}{n-1}E\left[\sum(X_i-\bar{X})^2\right] = \sigma^2 ∴E(S2)=n−11E[∑(Xi−Xˉ)2]=σ2
重点:分母 n − 1 n-1 n−1(而非 n n n)确保样本方差是总体方差的无偏估计
设 Z 1 , ⋯ , Z n ∼ i.i.d N ( 0 , 1 ) Z_1,\cdots,Z_n \overset{\text{i.i.d}}{\sim} N(0,1) Z1,⋯,Zn∼i.i.dN(0,1),则统计量
Q = ∑ i = 1 n Z i 2 ∼ χ 2 ( n ) Q = \sum_{i=1}^n Z_i^2 \sim \chi^2(n) Q=i=1∑nZi2∼χ2(n),服从自由度n的 χ 2 \chi^2 χ2分布
特征 | 说明 |
---|---|
期望 | E ( Q ) = n E(Q)=n E(Q)=n |
方差 | D ( Q ) = 2 n D(Q)=2n D(Q)=2n |
可加性 | χ 2 ( n 1 ) + χ 2 ( n 2 ) = χ 2 ( n 1 + n 2 ) \chi^2(n_1)+\chi^2(n_2)=\chi^2(n_1+n_2) χ2(n1)+χ2(n2)=χ2(n1+n2) |
形态变化 | n n n增大时趋近正态分布 |
设 Z ∼ N ( 0 , 1 ) Z \sim N(0,1) Z∼N(0,1), Q ∼ χ 2 ( n ) Q \sim \chi^2(n) Q∼χ2(n)且独立,则
T = Z Q / n ∼ t ( n ) T = \frac{Z}{\sqrt{Q/n}} \sim t(n) T=Q/nZ∼t(n)
特征 | 说明 |
---|---|
对称性 | 关于y轴对称 |
尾部 | 比正态分布更厚尾 |
收敛性 | k → ∞ k \to \infty k→∞时趋近标准正态 |
应用场景 | 小样本均值推断 |
设 U ∼ χ 2 ( d 1 ) U \sim \chi^2(d_1) U∼χ2(d1), V ∼ χ 2 ( d 2 ) V \sim \chi^2(d_2) V∼χ2(d2)且独立,则
F = U / d 1 V / d 2 ∼ F ( d 1 , d 2 ) F = \frac{U/d_1}{V/d_2} \sim F(d_1,d_2) F=V/d2U/d1∼F(d1,d2)
特征 | 公式/说明 |
---|---|
非对称性 | 右偏分布 |
倒数关系 | F ∼ F ( d 1 , d 2 ) ⇒ 1 F ∼ F ( d 2 , d 1 ) F \sim F(d_1,d_2) \Rightarrow \frac{1}{F} \sim F(d_2,d_1) F∼F(d1,d2)⇒F1∼F(d2,d1) |
应用场景 | 方差分析、回归显著性检验 |
设 X 1 , ⋯ , X n ∼ i.i.d N ( μ , σ 2 ) X_1,\cdots,X_n \overset{\text{i.i.d}}{\sim} N(\mu,\sigma^2) X1,⋯,Xn∼i.i.dN(μ,σ2)
统计量 | 分布形式 | 重要推论 |
---|---|---|
样本均值 | X ˉ ∼ N ( μ , σ 2 n ) \bar{X} \sim N(\mu, \frac{\sigma^2}{n}) Xˉ∼N(μ,nσ2) | 标准化得 X ˉ − μ σ / n ∼ N ( 0 , 1 ) \frac{\bar{X}-\mu}{\sigma/\sqrt{n}} \sim N(0,1) σ/nXˉ−μ∼N(0,1) |
样本方差 | ( n − 1 ) S 2 σ 2 ∼ χ 2 ( n − 1 ) \frac{(n-1)S^2}{\sigma^2} \sim \chi^2(n-1) σ2(n−1)S2∼χ2(n−1) | 卡方分布性质 |
均值方差比 | X ˉ − μ S / n ∼ t ( n − 1 ) \frac{\bar{X}-\mu}{S/\sqrt{n}} \sim t(n-1) S/nXˉ−μ∼t(n−1) | t检验基础 |
设 X 1 , ⋯ , X m ∼ N ( μ 1 , σ 1 2 ) X_1,\cdots,X_m \sim N(\mu_1,\sigma_1^2) X1,⋯,Xm∼N(μ1,σ12), Y 1 , ⋯ , Y n ∼ N ( μ 2 , σ 2 2 ) Y_1,\cdots,Y_n \sim N(\mu_2,\sigma_2^2) Y1,⋯,Yn∼N(μ2,σ22)
比较对象 | 统计量 | 分布 |
---|---|---|
均值差 | ( X ˉ − Y ˉ ) − ( μ 1 − μ 2 ) σ 1 2 m + σ 2 2 n \frac{(\bar{X}-\bar{Y})-(\mu_1-\mu_2)}{\sqrt{\frac{\sigma_1^2}{m}+\frac{\sigma_2^2}{n}}} mσ12+nσ22(Xˉ−Yˉ)−(μ1−μ2) | N ( 0 , 1 ) N(0,1) N(0,1)(方差已知) |
方差比 | S 1 2 / σ 1 2 S 2 2 / σ 2 2 \frac{S_1^2/\sigma_1^2}{S_2^2/\sigma_2^2} S22/σ22S12/σ12 | F ( m − 1 , n − 1 ) F(m-1,n-1) F(m−1,n−1) |
等方差均值 | ( X ˉ − Y ˉ ) − ( μ 1 − μ 2 ) S p 1 m + 1 n \frac{(\bar{X}-\bar{Y})-(\mu_1-\mu_2)}{S_p\sqrt{\frac{1}{m}+\frac{1}{n}}} Spm1+n1(Xˉ−Yˉ)−(μ1−μ2) | t ( m + n − 2 ) t(m+n-2) t(m+n−2) 其中 S p 2 = ( m − 1 ) S 1 2 + ( n − 1 ) S 2 2 m + n − 2 S_p^2=\frac{(m-1)S_1^2+(n-1)S_2^2}{m+n-2} Sp2=m+n−2(m−1)S12+(n−1)S22 |
注: S p S_p Sp称为合并标准差