假设输入 X X X和标签 Y Y Y符合某联合分布 ( X , Y ) ∼ D (X,Y)\sim \mathcal{D} (X,Y)∼D,其中 X ∈ X X \in \mathcal{X} X∈X(输入空间), Y ∈ Y = { 1 , − 1 } Y \in \mathcal{Y}=\set{1,-1} Y∈Y={1,−1}(二分类问题)
采用0-1损失作为损失函数: l ( y , y ′ ) = 1 y ≠ y ′ l(y,y')=1_{y\neq y'} l(y,y′)=1y=y′
真分险:对于分类器 f : X → Y f:\mathcal{X} \to \mathcal{Y} f:X→Y,真分险定义为期望误差:
L D ( f ) = E ( X , Y ) ∼ D [ l ( Y , f ( X ) ) ] = E ( X , Y ) ∼ D [ 1 Y ≠ f ( X ) ] L_{\mathcal{D}}(f)=\mathbb{E}_{(X,Y)\sim \mathcal{D}}[l(Y,f(X))]=\mathbb{E}_{(X,Y)\sim \mathcal{D}}[1_{Y\neq f(X)}] LD(f)=E(X,Y)∼D[l(Y,f(X))]=E(X,Y)∼D[1Y=f(X)]
目标是找到一个分类器 f ∗ f^* f∗使得 L D ( f ∗ ) L_{\mathcal{D}}(f^*) LD(f∗)最小。
贝叶斯分类器定义为:对于每一个输入 x x x,贝叶斯分类器选择后验概率最大的标签,称为最大后验概率(MAP)规则
f ∗ ( x ) = a r g m a x y ∈ { 1 , − 1 } P r ( Y = y ∣ X = x ) f^*(x)=arg\underset{y\in\set{1,-1}}{max}Pr(Y=y|X=x) f∗(x)=argy∈{1,−1}maxPr(Y=y∣X=x)
我们要证明贝叶斯分类器的最优性
如果 f ∗ ( x ) f^*(x) f∗(x)在每个 x x x上最小化条件错误概率,则 f ∗ f^* f∗全局最小化真分险。
∀ x ∈ X , f ∗ ( x ) ∈ arg min y ∈ Y Pr ( Y ≠ y ∣ X = x ) ⟹ f ∗ ∈ arg min f L D ( f ) \forall \mathbf{x} \in \mathcal{X}, \, f^*(\mathbf{x}) \in \arg \min_{y \in \mathcal{Y}} \operatorname{Pr}(Y \neq y \mid X = \mathbf{x}) \quad \implies \quad f^* \in \arg \min_{f} L_\mathcal{D}(f) ∀x∈X,f∗(x)∈argminy∈YPr(Y=y∣X=x)⟹f∗∈argminfLD(f)
证明:
使用期望的全概率公式,将联合分布拆分为 X X X的边缘分布和给定 X X X的条件分布:
L D ( f ) = E ( X , Y ) ∼ D [ 1 Y ≠ f ( X ) ] = E X [ E Y ∣ X [ 1 Y ≠ f ( X ) ∣ X ] ] L_{\mathcal{D}}(f)=\mathbb{E}_{(X,Y)\sim \mathcal{D}}[1_{Y\neq f(X)}]=\mathbb{E}_X[\mathbb{E}_{Y|X}[1_{Y\neq f(X)} | X]] LD(f)=E(X,Y)∼D[1Y=f(X)]=EX[EY∣X[1Y=f(X)∣X]]
其中内层期望 E Y ∣ X [ 1 Y ≠ f ( X ) ∣ X ] \mathbb{E}_{Y|X}[1_{Y\neq f(X)} | X] EY∣X[1Y=f(X)∣X]是给定 X = x X=x X=x时预测错误的概率。
E Y ∣ X [ 1 Y ≠ f ( X ) ∣ X ] = P r ( Y ≠ f ( x ) ∣ X = x ) \mathbb{E}_{Y|X}[1_{Y\neq f(X)} | X] = Pr(Y\neq f(x)| X=x) EY∣X[1Y=f(X)∣X]=Pr(Y=f(x)∣X=x)
L D ( f ) = E X [ P r ( Y ≠ f ( X ) ∣ X ) ] L_{\mathcal{D}}(f)=\mathbb{E}_X[Pr(Y\neq f(X)|X)] LD(f)=EX[Pr(Y=f(X)∣X)]
由贝叶斯分类器的定义, ∀ x ∈ X , f ∗ ( x ) ∈ a r g m i n y ∈ Y P r ( Y ≠ y ∣ X = x ) \forall x \in \mathcal{X},f^*(x) \in arg\underset{y\in\mathcal{Y}}{min}Pr(Y\neq y|X=x) ∀x∈X,f∗(x)∈argy∈YminPr(Y=y∣X=x),则对任意分类器 f f f,有:
P r ( Y ≠ f ∗ ( x ) ∣ X = x ) ≤ P r ( Y ≠ f ( x ) ∣ X = x ) Pr(Y \neq f^*(x)|X=x) \le Pr(Y \neq f(x)|X=x) Pr(Y=f∗(x)∣X=x)≤Pr(Y=f(x)∣X=x)
于是 L D ( f ∗ ) ≤ L D ( f ) L_{\mathcal{D}}(f^*)\le L_{\mathcal{D}}(f) LD(f∗)≤LD(f),这表明 f ∗ f^* f∗的真分险小于等于任意分类器 f f f的真分险,因此
f ∗ ∈ a r g m i n f L D ( f ) f^* \in arg\underset{f}{min}L_{\mathcal{D}}(f) f∗∈argfminLD(f)
f ∗ ( x ) f^*(x) f∗(x)等价于最大化后验概率和最小化条件错误概率,即:
f ∗ ( x ) ∈ arg max y ∈ Y Pr ( Y = y ∣ X = x ) ⟺ f ∗ ( x ) ∈ arg min y ∈ Y Pr ( Y ≠ y ∣ X = x ) f^*(\mathbf{x}) \in \arg \max_{y \in \mathcal{Y}} \operatorname{Pr}(Y = y \mid X = \mathbf{x}) \quad \iff \quad f^*(\mathbf{x}) \in \arg \min_{y \in \mathcal{Y}} \operatorname{Pr}(Y \neq y \mid X = \mathbf{x}) f∗(x)∈argmaxy∈YPr(Y=y∣X=x)⟺f∗(x)∈argminy∈YPr(Y=y∣X=x)
在二分类任务中是显然的。
Claim2证明了贝叶斯分类器 f ∗ ( x ) f^*(x) f∗(x)的定义(最大化后验概率)等价于局部最优(最小化每个 x x x的条件错误概率)
Claim1将局部最优性推广到全局,证明 f ∗ f^* f∗的真风险是最小的。
L D ( f ∗ ) = E X [ m i n y P r ( Y ≠ y ∣ X ) ] L_{\mathcal{D}}(f^*)=\mathbb{E}_X[\underset{y}{min}Pr(Y\neq y | X)] LD(f∗)=EX[yminPr(Y=y∣X)]被称为贝叶斯风险,是理论上的最小可能错误率。它反应了分布 D \mathcal{D} D本身的不确定性
如果 D \mathcal{D} D已知, f ∗ f^* f∗可直接计算,但在现实中需要估计 P r ( Y ∣ X ) Pr(Y|X) Pr(Y∣X),例如使用逻辑回归等方法逼近。