偏差-方差分解与误差-分歧分解

1. 偏差-方差分解(bias-variance decomposition)


        对于样本,令为在数据集中的标记,为真实标记,为算法在训练集上学到的模型关于输入的输出,学习算法的期望预测为:

    1.1

使用样本数相同的不同训练集产生的方差(variance)为:

    1.2

噪声(noise)为:

    1.3

期望输出与真实标记之间的差异称为偏差(bias)为:

    1.4

假设噪声的期望,将算法的期望泛化误差进行分解:

    1.5

由于与独立,所以:

所以

    1.6

所以期望泛化误差等于方差加上偏差再加上噪声。


2. 误差-分歧分解(error-ambiguity decomposition)


        假定用弱学习器通过加权平均形成集成学习器,完成回归学习任务,对于样本,,定义弱学习器的分歧(ambiguity)为:

    2.1

则集成分歧为:

    2.2

个体学习器在样本上的平方误差为:

    2.3

则集成学习器在样本上的平方误差为:

    2.4

记弱学习器的误差加权均值为:

,则:

  

因为,所以:

整理得:

    2.5

    2.6

即集成学习器的误差等于个体学习器的误差均值减去集成分歧,这说明好的集成学习器,要求个体学习器好而不同,“好”代表个体学习器的误差较低,“不同”代表个体学习器的分歧较大。


Reference:

《机器学习》 周志华

《统计学习方法》 李航

你可能感兴趣的:(偏差-方差分解与误差-分歧分解)