过拟合的问题(The problem of overfitting)

正则化可以减轻过拟合问题。

欠拟合(underfitting)
高偏差(high bias)

合适

过拟合(overfitting)
高方差(high variance)

泛化(generalize):指假设模型能应用到新样本的能力。


在线性回归中:

过拟合的问题(The problem of overfitting)_第1张图片

在逻辑回归中:

过拟合的问题(The problem of overfitting)_第2张图片

特征太多,数据量太少,过度拟合就会发生:

过拟合的问题(The problem of overfitting)_第3张图片

解决过度拟合:

方法:

  1. 减少特征数量:
    手动选择
    使用模型选择算法(后面会讲)
  2. 正则化(regularization)
    保留所有的特征,但是减少参数θj的大小(magnitude/values)
    当我们有很多特征的时候依然工作很好,并且每个特征都对预测y有一定的贡献
过拟合的问题(The problem of overfitting)_第4张图片

你可能感兴趣的:(过拟合的问题(The problem of overfitting))