几何分布的期望和方差公式推导_学习笔记:几种特殊分布之间的关系

本文给可供有兴趣的高中生以及大一新生了解统计学的几种特殊分布及它们之间的关系。由于篇幅所限,文章重点在于解释其内在联系,对于较为繁琐的推导进行了略去。有兴趣的同学可以自行查找更多资料。

此外,大学课程中推导数学期望和方差,更多地用到矩量母函数(Moment Generating Function,简称mgf);但考虑本文的内容本就比较基础,笔者尽量采用了更朴素的方法求解。

超几何分布

常见的取球模型,是高中内容,详见:

Forward Star:超几何分布的数学期望与方差推导​zhuanlan.zhihu.com

二项分布

当球趋近于无穷时,超几何分布可看做二项分布。

超几何分布与二项分布不同的地方在于:超几何分布是取出不放回,因此每次抽取的概率是不同的;二项分布则是取出放回,因此每次抽取概率相同。换言之,超几何分布的概率受“抽取”这一过程的干预,而二项分布则更多为自然现象等,不受抽取过程的干预。

二项分布也可看做超几何分布中

都很大的情况,此时取出不放回对概率的影响已经非常非常小了。那么我们可以把抽取
类物品的概率看作
,那么抽取另一类物品的概率则为

注意无论是二项分布和超几何分布,其每次试验都只有两种结果。

二项分布的各种推导略。不过从二项分布中,我们也可以发现一些有趣的性质,详见:

Forward Star:从递推与多项式的角度理解二项分布​zhuanlan.zhihu.com

伯努利分布

这个是二项分布的退化版,相当于二项分布的单次试验,二项分布也可称为

重伯努利试验。因此其概率为
,期望
,方差
。容易发现,期望与方差正好都是二项分布的

负二项分布

负二项分布则是在二项分布的基础上,已经确定最后一次抽取的结果。这最常见的就是比赛问题。在高中时,我们遇到比赛问题往往是分类讨论;对于五局三胜问题,我们讨论三回合结束、四回合结束、五回合结束的情况,从而汇总为某方胜利的概率。实际上,这种“

回合结束”型的问题也是负二项分布的一种。

由于限定了最后一次抽取的结果,那么这时我们只能考虑前

次结果的顺序安排了。由于两类时间出现的次数仍然不变,我们只用改变二项分布的组合数系数即可,即把
改为

期望

,方差
,推导略。如果令
,你可能感觉这种情况非常熟悉。它经常在我们生活中出现,比如抽卡,假如成功的概率为
,那么平均抽几次才能成功?直觉告诉我们是
,这也符合上述公式。

几何分布

其实也就是刚刚负二项分布的

情况。更准确的说,是在
重伯努利试验中,第
次才抽到预期结果的情况。那么此时概率函数为
。被称为几何分布,是因为它也是一个等比数列。那么在推导期望时,用错位相减即可。

期望和方差代入上述负二项分布,令

即可,这里不再赘述。

泊松分布

上述分布基本都是高中内容,从这里开始就真正进入大学内容了。

我们说当超几何分布的

很大时,转化为二项分布,那么当二项分布的
很大时呢?这个时候就用到泊松分布了。因此它的概率为

然而这个式子在数学上非常不好计算,我们看看能不能把

转化为具有其他现实意义的量。

回归到

,什么时候
很大呢?二项分布是离散的一个一个离散试验,假如是一段连续时间呢?如果是一段时间出现了
次事件,此时每个事件的出现只是一个点,但是时间线段却是连续的!

怎么办?连续问题离散化!把线段分成无穷多份。那么此时,就出现了

的情况了。

那此时

是什么呢?假设在原本的那一段时间中,该事件平均出现
次,那么平均到每一份,出现概率则为
。于是就可以对概率化简了,得:

即:

泊松分布的期望和方差都是

,回想
的含义,也容易解释其为什么为期望。具体推导过程略。

指数分布

上述分布都是离散分布,到这里开始就是连续分布了。

指数分布和几何分布有些类似,是“等待时间”。但是几何分布中

的意义是“等待次数”,它是离散的,而此处则不然。

既然是等待时间,那么在这段时间自然是不允许出现期望的事件,所以对应着泊松分布的

。不过我们也容易发现问题,如果这样计算,那么它的概率就是固定的一个值了,显然违背常理。

这里就又要追溯回

的含义了,是一段时间中出现事件数的平均值,那么我们只需要把
乘上一定的比例,对应为“等待时间”长度的平均值即可。那么
,其中
即为时间比例,
为等待时间的最大值。

这一步转化有一定的理解难度,就好比原先二项分布中只有

在变,而现在
同时是变量了(也就是
)。(这有点像是做偏序时多了一个维度,而我们通过排序把它转化为低维的问题。)

上述为指数分布和泊松分布的联系,我们又提到过指数分布和几何分布有些类似,那么能不能从几何分布的角度来理解呢?

我们用类似于泊松分布的方法,把几何分布的

替换为
,然后令
趋于无穷,那么
。由于在连续问题中,一个点的影响我们可以忽略,那么我们把
略去,即
。因此
,得到结果是一样的。

我们令

为单位时间事件出现次数的平均值,那么
,最终结果则为

累积分布函数,它描述着一段范围的概率。而在统计中,为了与离散分布列中的每个事件相对应,我们定义 质量密度函数来表示其某一点,因此质量密度函数为

由于符合指数形式,这种分布称为指数分布,和几何分布的形式有几分相似。实际表示中我们常把

替换为
,即

在泊松分布中,我们把连续问题离散化。因此在求期望时,我们看到的仍是求和符号。连续分布则不然,是积分号了。因此它的期望不再像几何分布一般用错位相减,而是:

因此其期望为

。回忆负二项分布中
的情况,我们用直觉去理解它的期望;类似地,我们抛开这些抽象的计算过程,思考期望的实际意义和本质。其实,它的期望可表述为“若单位时间内事件出现次数的平均值为
,求出现第一次事件的平均等待时间“。那么和负二项分布的不同之处,无非是把概率换成了频率,也就是
,而
,因此结果是相等的。

另外,指数分布的方差为

,推导过程略。

你可能感兴趣的:(几何分布的期望和方差公式推导)