bias和variance分析

Bias and variance tradeoff is everywhere

  • 文献中bias和varience常常出现,为了混淆,特别做一次对比,帮助记忆。
  • 核心是有切当的模型复杂度,使得训练误差和测试误差得到最佳平衡,换一个说法就是欠拟合和过拟合的平衡到处都需要考虑。

联想记忆

  • bias,对应下图的直线长度也短,就是欠拟合,也就是偏差太高。
  • variance,对应下图的曲线长度特别长,就是过拟合,也就是方差太高。
    bias和variance分析_第1张图片

引用文献中的一句话:

Random Forests results in a greater tree diversity ,which trades a
higher bias for a lower variance than DecisionTree, generally yielding
an overall better model.

意思就是指,相比于决策树,随机森林用提升了偏差的代价,降低了方差,减少了过拟合(决策树的缺陷之一)。

多看几个图,帮助理解记忆:

bias和variance分析_第2张图片
bias和variance分析_第3张图片
bias和variance分析_第4张图片

偏差和方差与集成学习

集成学习常用的提升方法是bagging和boosting。

  • Bagging是Bootstrap Aggregating的简称,意思是再抽样。具体而言,当决策树不限制深度或不进行剪枝时,极容易出现过拟合。集成学习中采用bagging就是随机森铃,通过对多个决策树取平均,可以减小过拟合,即降低方差。(用过过强的分类器,解决过拟合)
  • Boosting是将一个弱分类器的误差或者残差,作为下一个弱分类器的输入,通过弱分类器的叠加组合,可以降低偏差。(用于过弱的分类器,解决欠拟合问题)

引用:
1、吴恩达老师《deep learning ai》
2、《hands on machine learning with sklearn and tensorflow》

你可能感兴趣的:(机器学习,bias,variance)