贝叶斯估计在给定训练数据 D D D的情况下,旨在确定假设空间 H H H中的最优假设。我们通常将最优假设定义为在已知数据 D D D及 H H H中各假设的先验概率的基础上,概率最高的那个假设。贝叶斯理论提供了一种计算假设概率的方法,这种方法基于假设的先验概率、在该假设下观测到不同数据的概率以及实际观测到的数据。
在没有任何训练数据之前,假设 h h h的初始概率被称为先验概率,用 P ( h ) P(h) P(h)表示。先验概率反映了在没有额外信息的情况下,假设 h h h为正确的可能性。如果缺乏关于 h h h的先验知识,可以简单地为所有候选假设赋予相同的先验概率。类似地, P ( D ) P(D) P(D)表示训练数据 D D D的先验概率,而 P ( D ∣ h ) P(D|h) P(D∣h)则表示在假设 h h h成立的条件下出现数据 D D D的概率。在机器学习中,我们关注的是 P ( h ∣ D ) P(h|D) P(h∣D),即在已知 D D D的情况下假设 h h h为真的概率,这被称为 h h h的后验概率。
贝叶斯公式通过 P ( h ) P(h) P(h)、 P ( D ) P(D) P(D)和 P ( D ∣ h ) P(D|h) P(D∣h)来计算后验概率 P ( h ∣ D ) P(h|D) P(h∣D)。具体来说,公式为 P ( h ∣ D ) = P ( D ∣ h ) ∗ P ( h ) / P ( D ) P(h|D) = P(D|h) * P(h) / P(D) P(h∣D)=P(D∣h)∗P(h)/P(D)。这表明 P ( h ∣ D ) P(h|D) P(h∣D)随着 P ( h ) P(h) P(h)和 P ( D ∣ h ) P(D|h) P(D∣h)的增加而增加,但随着 P ( D ) P(D) P(D)的增加而减少。换句话说,如果在假设 h h h成立与否的情况下,数据 D D D出现的概率相同,那么数据 D D D对支持假设 h h h的力度将减弱。
贝叶斯定理,亦称贝叶斯法则或贝叶斯规则,是概率统计中一种根据观察到的现象来修正有关概率分布的主观判断(即先验概率)的标准方法。当分析的样本量足够大,接近总体规模时,样本中事件发生的概率将逼近总体中的事件发生概率。
贝叶斯定理是一个普遍适用的规范原理,它为所有概率的解释提供了有效框架。
在贝叶斯统计中,有两个核心概念:先验分布和后验分布:
(1)先验分布:总体分布参数 θ \theta θ的一个概率描述。贝叶斯学派的基本观点是,在进行任何关于总体分布参数θ的统计推断时,除了必须利用样本提供的信息外,还需要设定一个先验分布。这个分布在统计推断中是不可或缺的,而且可以部分或完全基于主观信念。
(2)后验分布:根据样本分布和先验分布,通过概率论中求条件概率分布的方法得到的未知参数的条件分布。这个分布是在抽样后获得的,因此被称为后验分布。贝叶斯推断的核心原则是,所有推断只应基于后验分布,而不应再涉及样本分布本身。
贝叶斯公式为:
P ( A B ) = P ( A ∣ B ) P ( B ) = P ( B ∣ A ) P ( A ) P(AB)=P(A \mid B) P(B)=P(B \mid A) P(A) P(AB)=P(A∣B)P(B)=P(B∣A)P(A)
P ( A ∣ B ) = P ( B ∣ A ) P ( A ) P ( B ) P(A \mid B)=\frac{P(B \mid A) P(A)}{P(B)} P(A∣B)=P(B)P(B∣A)P(A)
其中:
(1) P ( A ) P(A) P(A) 是 A A A 的先验概率或边缘概率,称为“先验”,是因为它不受 B B B 因素的影响。
(2) P ( A ∣ B ) P(A|B) P(A∣B) 是在已知 B B B 发生后 A A A 的条件概率,也称为 A A A 的后验概率。
(3) P ( B ∣ A ) P(B|A) P(B∣A) 是在已知 A A A 发生后 B B B 的条件概率,也称为 B B B 的后验概率,在这里这一概率称作“似然度”。
(4) P ( B ) P(B) P(B) 是 B B B 的先验概率或边缘概率,在此称为“标准化常量”。
(5) P ( B ∣ A ) / P ( B ) P(B|A)/P(B) P(B∣A)/P(B) 被称为“标准似然度”。
贝叶斯公式可以这样表述:
后验概率 = ( 似然度 × 先验概率 ) / 标准化常量 = 标准似然度 × 先验概率 后验概率 = (似然度 × 先验概率) / 标准化常量 = 标准似然度 × 先验概率 后验概率=(似然度×先验概率)/标准化常量=标准似然度×先验概率。
这意味着 P ( A ∣ B ) P(A|B) P(A∣B) 随着 P ( A ) P(A) P(A) 和 P ( B ∣ A ) P(B|A) P(B∣A) 的增加而增加,而随着 P ( B ) P(B) P(B) 的增加而减少。换句话说,如果 B B B 与 A A A 的发生相互独立, B B B 观察到的概率越大,那么 B B B 对于支持 A A A 的作用就越弱。
在更一般化的情况,假设 { A i } \{A_i\} {Ai}是事件集合里的部分集合,对于任意的 A i A_i Ai,贝叶斯公式可用下式表示:
P ( A i ∣ B ) = P ( B ∣ A i ) P ( A i ) ∑ j P ( B ∣ A j ) P ( A j ) P\left(A_i \mid B\right)=\frac{P\left(B \mid A_i\right) P\left(A_i\right)}{\sum_j P\left(B \mid A_j\right) P\left(A_j\right)} P(Ai∣B)=∑jP(B∣Aj)P(Aj)P(B∣Ai)P(Ai)
或者
f ( θ ∣ x ) = f ( x ∣ θ ) g ( θ ) ∫ θ ′ ∈ Θ f ( x ∣ θ ′ ) g ( θ ′ ) d θ ′ f(\theta \mid x)=\frac{f(x \mid \theta) g(\theta)}{\int_{\theta^{\prime} \in \Theta} f(x \mid \theta^{\prime}) g\left(\theta^{\prime}\right) d \theta^{\prime}} f(θ∣x)=∫θ′∈Θf(x∣θ′)g(θ′)dθ′f(x∣θ)g(θ)
贝叶斯公式为我们在收集到新信息后对原有判断进行有效的修正提供了强有力的工具。在进行采样之前,经济主体基于先前的判断形成各种假设的先验概率。这些先验概率的分布通常可以依据经济主体的经验来设定。当没有任何先前信息时,一般假设各假设的先验概率是相同的。对于更复杂和精确的情况,可以采用包括最大熵方法、边际分布密度和相互信息原理等技术来确定先验概率分布。这样的方法使得贝叶斯分析在处理不确定信息时更为精确和可靠。
1、一座别墅在过去的20年里一共发生过2次被盗,别墅的主人有一条狗,狗平均每周晚上叫3次,在盗贼入侵时狗叫的概率被估计为0.9,问题是:在狗叫的时候发生入侵的概率是多少?
解:假设A事件为狗在晚上叫,B为盗贼入侵
则 P ( A ) = 3 / 7 P(A)=3/7 P(A)=3/7, P ( B ) = 2 / ( 20 ⋅ 365 ) = 2 / 7300 P(B)=2/(20·365)=2/7300 P(B)=2/(20⋅365)=2/7300, P ( A ∣ B ) = 0.9 P(A|B)=0.9 P(A∣B)=0.9
按照公式很容易得出结果: P ( B ∣ A ) = 0.9 ∗ ( 2 / 7300 ) / ( 3 / 7 ) = 0.00058 P(B|A)=0.9*(2/7300)/(3/7)=0.00058 P(B∣A)=0.9∗(2/7300)/(3/7)=0.00058
2、现分别有A,B两个容器,在容器A里分别有7个红球和3个白球,在容器B里有1个红球和9个白球,现已知从这两个容器里任意抽出了一个球,且是红球,问这个红球是来自容器A的概率是多少?
解:假设已经抽出红球为事件 X X X,从容器A里抽出球为事件 Y Y Y
则有: P ( X ) = 8 / 20 P(X)=8/20 P(X)=8/20, P ( Y ) = 1 / 2 P(Y)=1/2 P(Y)=1/2, P ( X ∣ Y ) = 7 / 10 P(X|Y)=7/10 P(X∣Y)=7/10
按照公式,则有: P ( Y ∣ X ) = ( 7 / 10 ) ∗ ( 1 / 2 ) / ( 8 / 20 ) = 0.875 P(Y|X)=(7/10)*(1/2)/(8/20)=0.875 P(Y∣X)=(7/10)∗(1/2)/(8/20)=0.875