神经网络与深度学习知识总结(一)

1.SGD问题: 病态曲率  

神经网络与深度学习知识总结(一)_第1张图片

     图为损失函数轮廓。在进入以蓝色标记的山沟状区域之前随机开始。颜色实际上表示损失函数在特定点处的值有多大, 红色表示最大值,蓝色表示最小值。我们想要达到最小值点,为此但需要我们穿过山沟。这个区域就是所谓的病态曲率。

       如果把原始的 SGD 想象成一个纸团在重力作用向下滚动,由于质量小受到山壁弹力的干扰大,导致来回震荡;或者在鞍点处因为质量小速度很快减为 0,导致无法离开这块平地。
       动量方法相当于把纸团换成了铁球;不容易受到外力的干扰,轨迹更加稳定;同时因为在鞍点处因为惯性的作用,更有可能离开平地。

2.自适应梯度算法
  Adaptive Gradient: 自适应梯度
⚫ 参数自适应变化:具有较大偏导的参数相应有一个较大的学习率,而具有小偏导的参数则对应一个较小的学习率
⚫ 具体来说,每个参数的学习率会缩放各参数反比于其历史梯度平方值总和的平方根
神经网络与深度学习知识总结(一)_第2张图片
 

AdaGrad问题
学习率是单调递减的,训练后期学习率过小会导致训练困难,甚至提前结束。需要设置一个全局的初始学习率 RMSProp: Root Mean Square Prop。RMSProp 解决 AdaGrad 方法中学习率过度衰减的问题。RMSProp

你可能感兴趣的:(深度学习,神经网络,人工智能)