深度学习——梯度消失、梯度爆炸

本文参考:深度学习之3——梯度爆炸与梯度消失

梯度消失和梯度爆炸的根源:深度神经网络结构反向传播算法

目前优化神经网络的方法都是基于反向传播的思想,即根据损失函数计算的误差通过反向传播的方式,指导深度网络权值的更新。

为什么神经网络优化用到梯度下降的优化方法?

深度网络是由许多非线性层(带有激活函数)堆叠而成,每一层非线性层可以视为一个非线性函数 f(x) ,因此整个深度网络可以视为一个复合的非线性多元函数:

我们的目的是希望这个多元函数可以很好的完成输入到输出的映射,假设不同的输入,输出最优解是 g(x) ,那么优化深度网络就是为了寻找到合适的权值,满足损失取得最小值点,比如简单的损失函数平方差(MSE):

你可能感兴趣的:(深度学习,机器学习,人工智能)