【机器学习笔记】贝叶斯学习

贝叶斯学习

文章目录

  • 贝叶斯学习
    • 1 贝叶斯学习背景
    • 2 贝叶斯定理
    • 3 最大后验假设MAP(Max A Posterior)
    • 4 极大似然假设ML(Maximum Likelihood)
    • 5 朴素贝叶斯NB
    • 6 最小描述长度MDL

1 贝叶斯学习背景

试图发现两件事情的关系(因果关系,先决条件&结论)。

执果索因:肺炎→肺癌?不好确定,换成确诊肺癌得肺炎的概率

2 贝叶斯定理

贝叶斯定理是一种用先验慨率来推断后验慨率的公式,它可以表示为:
P ( h ∣ D ) = P ( D ∣ h ) P ( h ) P ( D ) P(h|D) = \frac{P(D|h)P(h)}{P(D)} P(hD)=P(D)P(Dh)P(h)

  • P ( h ∣ D ) P(h|D) P(hD)后验概率,表示在已知事件 D 发生的情况下,事件 h 发生的概率;

  • P ( h ) P(h) P(h)​ 是 h 的先验概率,表示在没有任何其他信息的情况下,事件 h 发生的概率;

    h h h 代表假设,应互相排斥;且假设空间 H H H 完全详尽,即 ∑ P ( h i ) = 1 \sum P(h_i)=1 P(hi)=1

  • P ( D ) P(D) P(D)​​ 是证据概率,表示在没有任何其他信息的情况下,事件 D 发生的概率;

    D D D 代表数据的一个采样集合,需要 h h h 独立

  • P ( D ∣ h ) P(D|h) P(Dh)​ 是似然概率,表示在已知事件 h 发生的情况下,事件 D 发生的概率;

    在实践上往往取 l o g log log ,是可以得到的概率。

举例: h h h 代表得了癌症, D D D 为测试结果为阳性。

P ( h ∣ D ) P(h|D) P(hD):已知测试结果为阳性,得癌症的概率。

P ( D ∣ h ) P(D|h) P(Dh)​:已知得了癌症,测试结果为阳性的概率。

我们已知:

  • 正确的阳性样本: 98% (患有该癌症, 测试结果为 +)
  • 正确的阴性样本: 97% (未患该癌症, 测试结果为 -)
  • 在整个人群中,只有0.008 的人患这种癌症

如果一个人测试结果阳性,多大概率得癌症?
∵ P ( + ∣ cancer ) = 0.98 ; P ( cancer ) = 0.008 ; P ( − ∣ ¬ cancer ) = 0.97 ; ∴ P ( + ∣ ¬ cancer ) = 0.03 ; P ( ¬ cancer ) = 0.992 P ( + ) = ∑ i P ( + ∣ h i ) P ( h i ) = P ( + ∣ cancer ) P ( cancer ) + P ( + ∣ ¬ cancer ) P ( ¬ cancer ) P ( cancer ∣ + ) = P ( + ∣ cancer ) P ( cancer ) P ( + ) = 0.98 × 0.008 0.98 × 0.008 + 0.03 × 0.992 = 0.21 \because P(+|\text{cancer})=0.98;P(\text{cancer})=0.008;P(-|\neg \text{cancer})=0.97; \\\therefore P(+|\neg \text{cancer})=0.03;P(\neg \text{cancer})=0.992 \\P(+)=\sum_iP(+|h_i)P(h_i)=P(+|\text{cancer})P(\text{cancer})+P(+|\neg \text{cancer})P(\neg \text{cancer}) \\P(\text{cancer}|+)=\frac{P(+|\text{cancer})P(\text{cancer})}{P(+)}=\frac{0.98×0.008}{0.98×0.008+0.03×0.992}=0.21 P(+cancer)=0.98;P(cancer)=0.008;P(∣¬cancer)=0.97;P(+∣¬cancer)=0.03;P(¬cancer)=0.992P(+)=iP(+hi)P(hi)=P(+cancer)P(cancer)+P(+∣¬cancer)P(¬cancer)P(cancer+)=P(+)P(+cancer)P(cancer)=0.98×0.008+0.03×0.9920.98×0.008=0.21

3 最大后验假设MAP(Max A Posterior)

求在给定训练集上最有可能的假设
h MAP = argmax h ∈ H   P ( D ∣ h ) P ( h ) h_{\text{MAP}}=\underset{h∈H}{\text{argmax}}\ P(D|h)P(h) hMAP=hHargmax P(Dh)P(h)
argmax h ∈ H \underset{h∈H}{\text{argmax}} hHargmax 指令后续公式取值最大的参数 h h h

最大后验概率的思想是,在有一些关于参数的先验知识的情况下,根据观测数据来修正参数的概率分布,并选择使后验概率最大的参数值作为估计值。

4 极大似然假设ML(Maximum Likelihood)

如果我们完全不知道假设的概率分布,或者我们知道所有的假设发生的概率相同,那么MAP 等价于 极大似然假设 h M L h_{ML} hML (Maximum Likelihood),其公式为
h M L = arg ⁡ max ⁡ h i ∈ H   P ( D ∣ H i ) h_{ML}=\mathop{\arg\max}_{h_i∈H}\ P(D|H_i) hML=argmaxhiH P(DHi)

  • 最小二乘LSE

    最小二乘法(Least Squares Method),又称最小平方法,是一种数学优化方法,它通过最小化误差的平方和来找到数据的最佳函数匹配。假设训练数据为 < x i , d i > <xi,di>
    d i = f ( x i ) + e i d_i=f(x_i)+e_i di=f(xi)+ei
    d i d_i di:独立的样本; f ( x ) f(x) f(x):没有噪声的目标函数值; e i e_i ei​:噪声,独立随机变量,符合正态分布。

  • 极大似然和最小二乘法的关系
    h M L = argmax h ∈ H   P ( D ∣ h ) P ( h ) = argmax h ∈ H   ∏ i = 1 m p ( d i ∣ h ) = argmax h ∈ H   ∏ i = 1 m 1 2 π σ 2 e − 1 2 ( d i − h ( x i ) σ ) 2 (正态分布) = argmax h ∈ H   ∑ i = 1 m ln ⁡ 1 2 π σ 2 − 1 2 ( d i − h ( x i ) σ ) 2 (取ln,单调性) = argmax h ∈ H   ∑ i = 1 m ( d i − h ( x i ) ) 2 (最小二乘) \begin{align} h_{ML} & = \underset{h∈H}{\text{argmax}}\ P(D|h)P(h) \\ & = \underset{h∈H}{\text{argmax}}\ \prod_{i=1}^mp(d_i|h) \\ & = \underset{h∈H}{\text{argmax}}\ \prod_{i=1}^m\frac{1}{\sqrt{2π\sigma^2}}e^{-\frac{1}{2}(\frac{d_i-h(x_i)}{\sigma})^2}&\text{(正态分布)} \\ & = \underset{h∈H}{\text{argmax}}\ \sum_{i=1}^m \ln\frac{1}{\sqrt{2π\sigma^2}}-\frac{1}{2}(\frac{d_i-h(x_i)}{\sigma})^2&\text{(取ln,单调性)} \\ & = \underset{h∈H}{\text{argmax}}\ \sum_{i=1}^m (d_i-h(x_i))^2&\text{(最小二乘)}\\ \end{align} hML=hHargmax P(Dh)P(h)=hHargmax i=1mp(dih)=hHargmax i=1m2πσ2 1e21(σdih(xi))2=hHargmax i=1mln2πσ2 121(σdih(xi))2=hHargmax i=1m(dih(xi))2(正态分布)(ln,单调性)(最小二乘)
    在独立随机变量,正态分布噪声的情况下, h M L = h L S E h_{ML}=h_{LSE} hML=hLSE

5 朴素贝叶斯NB

朴素贝叶斯的核心思想是,根据贝叶斯定理,后验概率 P(Y|X) 与先验概率 P(Y) 和似然概率 P(X|Y) 成正比

朴素贝叶斯假设:
P ( x ∣ y i ) = P ( a 1 , a 2 . . . a n ∣ v j ) = ∏ i P ( a i ∣ v j ) P(x|y_i)=P(a_1,a_2...a_n|v_j) =\prod_iP(a_i|v_j) P(xyi)=P(a1,a2...anvj)=iP(aivj)
a 1 , a 2 . . . a n a_1,a_2...a_n a1,a2...an相互独立的属性, v j v_j vj某条件。

朴素贝叶斯分类器:
v NB = arg ⁡ max ⁡ v i ∈ V { log ⁡ P ( v j ) + ∑ i log ⁡ P ( a i ∣ v j ) } v_{\text{NB}}=\mathop{\arg\max}_{vi∈V}\{\log P(v_j)+\sum_i\log P(a_i|v_j) \} vNB=argmaxviV{logP(vj)+ilogP(aivj)}
如果满足属性之间的独立性,那么 v MAP = v NB v_{\text{MAP}}=v_{\text{NB}} vMAP=vNB

  • 举例1:词义消歧 (Word Sense Disambiguation)

    对于单词 w,使用上下文 c 进行词义消歧

    e.g. "A fly flies into the kitchen while he fry the chicken. "

    如何判断fly的含义?根据上下文 c c c 在词 w w w 周围一组词 w i w_i wi (特征),进行判断词义 s i s_i si

    朴素贝叶斯假设: P ( c ∣ s k ) = ∏ w i ∈ c P ( w i ∣ s k ) P(c|s_k) = \prod_{w_i∈c} P(w_i|s_k) P(csk)=wicP(wisk)

    朴素贝叶斯选择: s = a r g m a x s k { log ⁡ P ( s k ) + ∑ w i ∈ c log ⁡ P ( w i ∣ s k ) } s=\underset{s_k}{argmax}\{\log P(s_k)+\sum_{w_i∈c}\log P(w_i|s_k) \} s=skargmax{logP(sk)+wiclogP(wisk)}

    其中 P ( s k ) = C ( s k ) C ( w ) , P ( w i ∣ s k ) = C ( w i , s k ) C ( s k ) P(s_k)=\frac{C(s_k)}{C(w)},P(w_i|s_k)=\frac{C(w_i,s_k)}{C(s_k)} P(sk)=C(w)C(sk),P(wisk)=C(sk)C(wi,sk)

  • 举例 2: 垃圾邮件过滤

    经验:数据量要大;注重邮件头;不对词进行词干化;只用最显著的词;对假阳性做偏置

6 最小描述长度MDL

偏向假设 h 使得最小化
h MDL = arg ⁡ min ⁡ h ∈ H { L C 1 ( h ) + L C 2 ( D ∣ h ) } h_{\text{MDL}}=\mathop{\arg\min}_{h∈H}\{L_{C_1}(h)+L_{C_2}(D|h) \} hMDL=argminhH{LC1(h)+LC2(Dh)}
其中 L C x L_{C_x} LCx x x x 在编码 C C C 下的描述长度。

为可能性较大的消息赋予较短的编码

在对信息编码时,更偏好 一个短的且错误更少的假设,而不是一个长的但完美分类训练数据的假设

你可能感兴趣的:(机器学习,机器学习,笔记,学习,贝叶斯学习,人工智能)