day4-梯度消失和梯度爆炸

梯度消失和梯度爆炸

梯度消失:反向传播过程中,一旦出现某神经元梯度趋近于0,那么往回传播时,由于梯度是连乘的,那么前面的梯度都趋近于0,相当于很多神经元没有训练

梯度爆炸:梯度在连乘的情况下,也容易出现指数级的增长

参数初始化方式

  1. 正态分布初始化

  2. Xavier初始化

假设某全连接层的输入个数为,输出个数为,Xavier随机初始化将使该层中权重参数的每个元素都随机采样于均匀分布

它的设计主要考虑到,模型参数初始化后,每层输出的方差不该受该层输入个数影响,且每层梯度的方差也不该受该层输出个数影响。

  1. 使用pre-trained的参数

你可能感兴趣的:(day4-梯度消失和梯度爆炸)