梯度下降实用技巧I之特征缩放 Gradient Descent in practice I - feature scaling

梯度下降实用技巧I之特征缩放 Gradient Descent in practice I - feature scaling

当多个特征的范围差距过大时,代价函数的轮廓图会非常的偏斜,如下图左所示,这会导致梯度下降函数收敛的非常慢。因此需要特征缩放(feature scaling)来解决这个问题,特征缩放的目的是把特征的范围缩放到接近的范围。当把特征的范围缩放到接近的范围,就会使偏斜的不那么严重。通过代价函数执行梯度下降算法时速度回加快,更快的收敛。如下图右所示。

梯度下降实用技巧I之特征缩放 Gradient Descent in practice I - feature scaling_第1张图片


特征缩放的范围:一般把特征的范围缩放到-1到1,和这接近就行,没必要同一范围。梯度下降就能很好的工作。如下图所示,x1 的范围为0到3,x2的范围为-2到0.5都是可以的。但不能相差的很大,-100到100则是不可以的。

梯度下降实用技巧I之特征缩放 Gradient Descent in practice I - feature scaling_第2张图片


特征缩放的方法:直接先看图再解释,主要是均值归一化

梯度下降实用技巧I之特征缩放 Gradient Descent in practice I - feature scaling_第3张图片


一般的均值归一化公式为: ,其中为均值,s为特征的范围,即max-min。也可以用标准差。



你可能感兴趣的:(机器学习,scaling,feature,梯度下降,特征缩放)