一个简单的故事介绍极大似然估计

极大似然估计(Maximum Likelihood Estimation, MLE)是一种在统计中用于估计参数的方法,其核心思想是找到使观测数据出现的概率最大的参数值。

故事背景

假设我们有一个不均匀的六面色子,但我们不知道每一面出现的真实概率。传统上,一个均匀的六面色子每一面出现的概率应该是1/6,但这个色子因为某些原因(比如制造上的误差)导致各面出现的概率不同。我们的任务是,通过投掷这个色子多次,来估计每一面出现的真实概率。

投掷色子与记录数据

  1. 投掷实验:我们决定投掷这个色子1000次,并记录每次投掷的结果。

  2. 数据记录:假设投掷后,我们得到的结果如下(这里为了简化,只列出部分结果):

    • 1点出现了150次
    • 2点出现了120次
    • 3点出现了180次
    • 4点出现了160次
    • 5点出现了170次
    • 6点出现了220次

极大似然估计

现在,我们要使用极大似然估计来估计这个色子每一面出现的真实概率。

  1. 定义概率模型:假设色子每一面出现的概率为 p 1 , p 2 , p 3 , p 4 , p 5 , p 6 p_1, p_2, p_3, p_4, p_5, p_6 p1,p2,p3,p4,p5,p6,且这些概率之和为1,即 ∑ i = 1 6 p i = 1 \sum_{i=1}^{6} p_i = 1 i=16pi=1

  2. 似然函数:似然函数表示给定参数(这里是各面的概率)下,观测数据(投掷结果)出现的概率。对于我们的投掷结果,似然函数可以表示为:

L ( p 1 , p 2 , p 3 , p 4 , p 5 , p 6 ) = p 1 150 ⋅ p 2 120 ⋅ p 3 180 ⋅ p 4 160 ⋅ p 5 170 ⋅ p 6 220 L(p_1, p_2, p_3, p_4, p_5, p_6) = p_1^{150} \cdot p_2^{120} \cdot p_3^{180} \cdot p_4^{160} \cdot p_5^{170} \cdot p_6^{220} L(p1,p2,p3,p4,p5,p6)=p1150p2120p3180p4160p5170p6220

我们的目标是找到使这个似然函数最大的 p 1 , p 2 , p 3 , p 4 , p 5 , p 6 p_1, p_2, p_3, p_4, p_5, p_6 p1,p2,p3,p4,p5,p6 值。

  1. 最大化似然函数:为了找到使似然函数最大的概率值,我们可以使用对数似然函数,因为对数函数是单调增函数,不会改变极值点的位置,但可以简化计算。对数似然函数为:

    log ⁡ L = 150 log ⁡ p 1 + 120 log ⁡ p 2 + 180 log ⁡ p 3 + 160 log ⁡ p 4 + 170 log ⁡ p 5 + 220 log ⁡ p 6 \log L = 150 \log p_1 + 120 \log p_2 + 180 \log p_3 + 160 \log p_4 + 170 \log p_5 + 220 \log p_6 logL=150logp1+120logp2+180logp3+160logp4+170logp5+220logp6

    为了找到使这个函数最大的 p i p_i pi 值,我们需要对每个 p i p_i pi 求偏导数并令其等于0,同时考虑约束条件 ∑ i = 1 6 p i = 1 \sum_{i=1}^{6} p_i = 1 i=16pi=1。解这个方程组,我们可以得到:

    p i = 第 i 面出现的次数 总投掷次数 p_i = \frac{\text{第} i \text{面出现的次数}}{\text{总投掷次数}} pi=总投掷次数i面出现的次数

    将我们的数据代入,得到:

    • p 1 = 150 1000 = 0.15 p_1 = \frac{150}{1000} = 0.15 p1=1000150=0.15
    • p 2 = 120 1000 = 0.12 p_2 = \frac{120}{1000} = 0.12 p2=1000120=0.12
    • p 3 = 180 1000 = 0.18 p_3 = \frac{180}{1000} = 0.18 p3=1000180=0.18
    • p 4 = 160 1000 = 0.16 p_4 = \frac{160}{1000} = 0.16 p4=1000160=0.16
    • p 5 = 170 1000 = 0.17 p_5 = \frac{170}{1000} = 0.17 p5=1000170=0.17
    • p 6 = 220 1000 = 0.22 p_6 = \frac{220}{1000} = 0.22 p6=1000220=0.22

结论

通过极大似然估计,我们得到了这个不均匀色子每一面出现的估计概率。这个过程展示了如何使用观测数据来估计未知参数,即使这些参数是概率。在这个简化的故事中,MLE提供了一个直观且有效的方法来从有限的数据中提取信息。

你可能感兴趣的:(一个简单的故事介绍极大似然估计)