2021李宏毅《机器学习/深度学习》 5. 神经网络训练不起来

文章目录

  • 前言
  • 1. Local Minima and Saddle Point
    • 判断是局部最小值还是鞍点
  • 2. Batch and Momentum
    • 2.1 Why use batch
      • 2.1.1 Small batch vs Large batch
      • 2.1.2 Sometimes small batch is better on testing data
      • 2.1.3 A short summary
    • 2.2 What is momentum
    • 2.3 Short summary
  • 3. Learning rate
    • 3.1 lr cannot be one-size-fits-all
    • 3.2 Learning Rate Scheduling
  • 4. Possible impact of Loss
  • 5. Batch Normalization
    • 5.1 Why batch normalization
    • 5.2 Testing problem
      • 5.3 Other normalization
      • A short summary


前言

笔记,自用


1. Local Minima and Saddle Point

2021李宏毅《机器学习/深度学习》 5. 神经网络训练不起来_第1张图片

判断是局部最小值还是鞍点

2021李宏毅《机器学习/深度学习》 5. 神经网络训练不起来_第2张图片

2. Batch and Momentum

2.1 Why use batch

2.1.1 Small batch vs Large batch

2021李宏毅《机器学习/深度学习》 5. 神经网络训练不起来_第3张图片

(1) Sometimes large batch size does not require longer time to compute gradient. Because of Parallel processing of GPUs.(Unless batch size is too large)

(2) Sometimes smaller batch requires longer time for one epoch(longer time for seeing all data once).As shown below.

2021李宏毅《机器学习/深度学习》 5. 神经网络训练不起来_第4张图片

(3) Sometimes the opposite:

2021李宏毅《机器学习/深度学习》 5. 神经网络训练不起来_第5张图片
ONE OF THE RESONS:
Full batch 的loss 走到一个local minima或saddle point就停下来了,没办法再更新参数。Small batch的batch都不同,第一个走不动了下一个batch也许就能接着走。

2.1.2 Sometimes small batch is better on testing data

2021李宏毅《机器学习/深度学习》 5. 神经网络训练不起来_第6张图片

ONE OF THE RESONS:
Sharp Minima很可能会困住large batch,但不会困住small batch(有人信有人不信)。

2.1.3 A short summary

2021李宏毅《机器学习/深度学习》 5. 神经网络训练不起来_第7张图片

2.2 What is momentum

2021李宏毅《机器学习/深度学习》 5. 神经网络训练不起来_第8张图片
2021李宏毅《机器学习/深度学习》 5. 神经网络训练不起来_第9张图片

2021李宏毅《机器学习/深度学习》 5. 神经网络训练不起来_第10张图片

2.3 Short summary

2021李宏毅《机器学习/深度学习》 5. 神经网络训练不起来_第11张图片

3. Learning rate

3.1 lr cannot be one-size-fits-all

2021李宏毅《机器学习/深度学习》 5. 神经网络训练不起来_第12张图片
某个方向上gradient很小,lr调大;gradient很小,很陡峭,lr调小。

(1) Root Mean Square
(2) RMSProp
(3) Adam: RMSProp + Momentum

3.2 Learning Rate Scheduling

(1) Learning Rate Decay
2021李宏毅《机器学习/深度学习》 5. 神经网络训练不起来_第13张图片
(2) Warm up
2021李宏毅《机器学习/深度学习》 5. 神经网络训练不起来_第14张图片

4. Possible impact of Loss

2021李宏毅《机器学习/深度学习》 5. 神经网络训练不起来_第15张图片
A rough understanding of softmax:
Making y(have any value) between 0 and 1, for label y can be 0 or 1.

2021李宏毅《机器学习/深度学习》 5. 神经网络训练不起来_第16张图片
2021李宏毅《机器学习/深度学习》 5. 神经网络训练不起来_第17张图片
Why Cross-entromy?

2021李宏毅《机器学习/深度学习》 5. 神经网络训练不起来_第18张图片

5. Batch Normalization

5.1 Why batch normalization

One of feature normalization:
2021李宏毅《机器学习/深度学习》 5. 神经网络训练不起来_第19张图片

2021李宏毅《机器学习/深度学习》 5. 神经网络训练不起来_第20张图片
在z或a处做normaliaztion并无太大差别。使用sigmiod时建议在z。As below:

2021李宏毅《机器学习/深度学习》 5. 神经网络训练不起来_第21张图片

当x经过feature normalization后,z1z2z3与后续z1等a1等都相关联,z1改变后面的参数都会变化,所以要同时考虑后面所有的参数。又由于data量大,不能考虑完整的,所以考虑一个batch的normalization。

2021李宏毅《机器学习/深度学习》 5. 神经网络训练不起来_第22张图片

5.2 Testing problem

2021李宏毅《机器学习/深度学习》 5. 神经网络训练不起来_第23张图片

5.3 Other normalization

2021李宏毅《机器学习/深度学习》 5. 神经网络训练不起来_第24张图片

A short summary

Batch normalization change the landscape of error surface.

你可能感兴趣的:(深度学习,机器学习)