【课堂笔记】最优分类器

问题背景

  假设输入 X X X标签 Y Y Y符合某联合分布 ( X , Y ) ∼ D (X,Y)\sim \mathcal{D} (X,Y)D,其中 X ∈ X X \in \mathcal{X} XX(输入空间), Y ∈ Y = {   1 , − 1   } Y \in \mathcal{Y}=\set{1,-1} YY={1,1}(二分类问题)
  采用0-1损失作为损失函数 l ( y , y ′ ) = 1 y ≠ y ′ l(y,y')=1_{y\neq y'} l(y,y)=1y=y
  真分险:对于分类器 f : X → Y f:\mathcal{X} \to \mathcal{Y} f:XY,真分险定义为期望误差:

L D ( f ) = E ( X , Y ) ∼ D [ l ( Y , f ( X ) ) ] = E ( X , Y ) ∼ D [ 1 Y ≠ f ( X ) ] L_{\mathcal{D}}(f)=\mathbb{E}_{(X,Y)\sim \mathcal{D}}[l(Y,f(X))]=\mathbb{E}_{(X,Y)\sim \mathcal{D}}[1_{Y\neq f(X)}] LD(f)=E(X,Y)D[l(Y,f(X))]=E(X,Y)D[1Y=f(X)]

  目标是找到一个分类器 f ∗ f^* f使得 L D ( f ∗ ) L_{\mathcal{D}}(f^*) LD(f)最小。

最优分类器

  贝叶斯分类器定义为:对于每一个输入 x x x,贝叶斯分类器选择后验概率最大的标签,称为最大后验概率(MAP)规则

f ∗ ( x ) = a r g m a x y ∈ {   1 , − 1   } P r ( Y = y ∣ X = x ) f^*(x)=arg\underset{y\in\set{1,-1}}{max}Pr(Y=y|X=x) f(x)=argy{1,1}maxPr(Y=yX=x)

  我们要证明贝叶斯分类器的最优性

Claim 1:

  如果 f ∗ ( x ) f^*(x) f(x)在每个 x x x上最小化条件错误概率,则 f ∗ f^* f全局最小化真分险。

∀ x ∈ X ,   f ∗ ( x ) ∈ arg ⁡ min ⁡ y ∈ Y Pr ⁡ ( Y ≠ y ∣ X = x )    ⟹    f ∗ ∈ arg ⁡ min ⁡ f L D ( f ) \forall \mathbf{x} \in \mathcal{X}, \, f^*(\mathbf{x}) \in \arg \min_{y \in \mathcal{Y}} \operatorname{Pr}(Y \neq y \mid X = \mathbf{x}) \quad \implies \quad f^* \in \arg \min_{f} L_\mathcal{D}(f) xX,f(x)argminyYPr(Y=yX=x)fargminfLD(f)

证明:
  使用期望的全概率公式,将联合分布拆分为 X X X的边缘分布和给定 X X X的条件分布:

L D ( f ) = E ( X , Y ) ∼ D [ 1 Y ≠ f ( X ) ] = E X [ E Y ∣ X [ 1 Y ≠ f ( X ) ∣ X ] ] L_{\mathcal{D}}(f)=\mathbb{E}_{(X,Y)\sim \mathcal{D}}[1_{Y\neq f(X)}]=\mathbb{E}_X[\mathbb{E}_{Y|X}[1_{Y\neq f(X)} | X]] LD(f)=E(X,Y)D[1Y=f(X)]=EX[EYX[1Y=f(X)X]]

  其中内层期望 E Y ∣ X [ 1 Y ≠ f ( X ) ∣ X ] \mathbb{E}_{Y|X}[1_{Y\neq f(X)} | X] EYX[1Y=f(X)X]是给定 X = x X=x X=x时预测错误的概率。

E Y ∣ X [ 1 Y ≠ f ( X ) ∣ X ] = P r ( Y ≠ f ( x ) ∣ X = x ) \mathbb{E}_{Y|X}[1_{Y\neq f(X)} | X] = Pr(Y\neq f(x)| X=x) EYX[1Y=f(X)X]=Pr(Y=f(x)X=x)

L D ( f ) = E X [ P r ( Y ≠ f ( X ) ∣ X ) ] L_{\mathcal{D}}(f)=\mathbb{E}_X[Pr(Y\neq f(X)|X)] LD(f)=EX[Pr(Y=f(X)X)]

  由贝叶斯分类器的定义, ∀ x ∈ X , f ∗ ( x ) ∈ a r g m i n y ∈ Y P r ( Y ≠ y ∣ X = x ) \forall x \in \mathcal{X},f^*(x) \in arg\underset{y\in\mathcal{Y}}{min}Pr(Y\neq y|X=x) xX,f(x)argyYminPr(Y=yX=x),则对任意分类器 f f f,有:

P r ( Y ≠ f ∗ ( x ) ∣ X = x ) ≤ P r ( Y ≠ f ( x ) ∣ X = x ) Pr(Y \neq f^*(x)|X=x) \le Pr(Y \neq f(x)|X=x) Pr(Y=f(x)X=x)Pr(Y=f(x)X=x)

  于是 L D ( f ∗ ) ≤ L D ( f ) L_{\mathcal{D}}(f^*)\le L_{\mathcal{D}}(f) LD(f)LD(f),这表明 f ∗ f^* f的真分险小于等于任意分类器 f f f的真分险,因此

f ∗ ∈ a r g m i n f L D ( f ) f^* \in arg\underset{f}{min}L_{\mathcal{D}}(f) fargfminLD(f)

Claim 2

   f ∗ ( x ) f^*(x) f(x)等价于最大化后验概率和最小化条件错误概率,即:

f ∗ ( x ) ∈ arg ⁡ max ⁡ y ∈ Y Pr ⁡ ( Y = y ∣ X = x )    ⟺    f ∗ ( x ) ∈ arg ⁡ min ⁡ y ∈ Y Pr ⁡ ( Y ≠ y ∣ X = x ) f^*(\mathbf{x}) \in \arg \max_{y \in \mathcal{Y}} \operatorname{Pr}(Y = y \mid X = \mathbf{x}) \quad \iff \quad f^*(\mathbf{x}) \in \arg \min_{y \in \mathcal{Y}} \operatorname{Pr}(Y \neq y \mid X = \mathbf{x}) f(x)argmaxyYPr(Y=yX=x)f(x)argminyYPr(Y=yX=x)

  在二分类任务中是显然的。

结论

  Claim2证明了贝叶斯分类器 f ∗ ( x ) f^*(x) f(x)的定义(最大化后验概率)等价于局部最优(最小化每个 x x x的条件错误概率)
  Claim1将局部最优性推广到全局,证明 f ∗ f^* f的真风险是最小的。
   L D ( f ∗ ) = E X [ m i n y P r ( Y ≠ y ∣ X ) ] L_{\mathcal{D}}(f^*)=\mathbb{E}_X[\underset{y}{min}Pr(Y\neq y | X)] LD(f)=EX[yminPr(Y=yX)]被称为贝叶斯风险,是理论上的最小可能错误率。它反应了分布 D \mathcal{D} D本身的不确定性
  如果 D \mathcal{D} D已知, f ∗ f^* f可直接计算,但在现实中需要估计 P r ( Y ∣ X ) Pr(Y|X) Pr(YX),例如使用逻辑回归等方法逼近。

你可能感兴趣的:(机器学习,笔记,机器学习,人工智能,概率论)