Bias and Variance

一个模型的预测误差可以分别两个部分Bias和Variance:

Error=Bias^2+Variance

Bias刻画的是模型输出与目标输出的偏差。偏差越小,准确率越高

Variance刻画的是模型的稳定性,不同训练集训练得到的模型的差异。方差越小,模型越稳定。

Bias和Variance的图谱如下

Bias and Variance_第1张图片

红色圆心为目标输出,蓝色点为模型输出。


Bias和Variance对模型的预测误差和复杂度关系如下:

Bias and Variance_第2张图片

高bias偏差,说明模型错误率比较高,准确率低(可相应画出关于准确率的图)。

低Variance方差,说明两条错误曲线或准确率曲线比较接近。

模型越复杂,训练错误率低,但测试集的错误率往往会比较高(过拟合)。方差较大,偏差小。

模型较简单,则模型比较generation,方差比较小,但bias大(欠拟合)

Bias and Variance_第3张图片

参考文献2中指出最终的错误率由三个部分组成,第三项是由噪声引起的,任何模型无法消除,故不考虑。所以要降低模型的最终错误率不能单靠降低Bias或Variance。而是在取得折中(trade-off)


思考1:

在https://www.zhihu.com/question/27068705/answer/35151681中提出

在训练数据上进行交叉验证(Cross-Validation),一种方法叫做K-fold Cross Validation (K折交叉验证)。

当K值大的时候, 我们会有更少的Bias, 更多的Variance。
当K值小的时候, 我们会有更多的Bias, 更少的Variance。

思考2:

参考文献2举的KNN的例子。

参考:

1. http://blog.csdn.net/ywl22/article/details/8606166

2. http://scott.fortmann-roe.com/docs/BiasVariance.html

你可能感兴趣的:(机器学习)