介绍了模型层后,接下来我们就看看模型层中各种各样的激活函数吧。
激活函数,就是在人工神经网络的神经元上运行的函数,负责将神经元的输入映射到输出端。激活函数对于人工神经网络模型去学习、理解非常复杂和非线性的函数来说具有十分重要的作用。
如果不用激活函数,每一层输出都是上层输入的线性函数,无论神经网络有多少层,输出都是输入的线性组合,这种情况就是最原始的感知机。没有激活函数的每层都相当于矩阵相乘。就算你叠加了若干层之后,无非还是个矩阵相乘罢了。
如果使用的话,激活函数给神经元引入了非线性因素,使得神经网络可以任意逼近任何非线性函数,这样神经网络就可以应用到众多的非线性模型中。
以下介绍几种pytorch中常见的激活函数,实际过程中用的都是这四个,其他什么基本没怎么见到。
Sigmoid是将数据限制在0到1之间。但是,由于Sigmoid的最大的梯度为0.25,随着使用sigmoid的层越来越多,网络就变得很难收敛。因此,对深度学习,ReLU及其变种被广泛使用避免收敛困难的问题。
一般在二分类中选择,因为其输出值总在0-1之间,非常符合二分类的特点,Pytorch 中的调用形式为 torch.nn.Sigmoid()
。
S i g m o i d Sigmoid Sigmoid 函数的表达式如下:
S i g m o i d ( x ) = σ ( x ) = 1 1 + e − x \begin{aligned} Sigmoid(x)= \sigma(x)=\frac{1}{1+e^{-x}} \end{aligned} Sigmoid(x)=σ(x)=1+e−x1
S i g m o i d Sigmoid Sigmoid 函数的图像如下图所示:
Tanh就是双曲正切,其输出的数值范围为-1到1,除二分类中,tanh函数总是优于sigmoid函数,Pytorch 中的调用形式为 torch.nn.Tanh()
。
T a n h Tanh Tanh 函数的表达式如下:
t a n h ( x ) = e x − e − x e x + e − x \begin{aligned} tanh(x) = \frac{e^x - e^{-x}}{e^x + e^{-x}} \end{aligned} tanh(x)=ex+e−xex−e−x
T a n h Tanh Tanh 函数的图像如下图所示:
Pytorch 中的调用形式为 torch.nn.ReLU()
,在隐藏层上不确定使用哪个激活函数,那么通常会使用Relu激活函数。
R e L U ReLU ReLU 函数的表达式如下:
R e L U ( x ) = { 0 , x ≤ 0 x , x > 0 ReLU(x)=\left\{ \begin{aligned} &0,&x \le 0 \\ &x,&x>0 \end{aligned} \right. ReLU(x)={0,x,x≤0x>0
R e L U ReLU ReLU 函数的图像如下图所示:
这个函数通常比Relu激活函数效果要好,尽管在实际中Leaky ReLu使用的并不多,Pytorch 中的调用形式为 torch.nn.LeakyReLU()
。
L e a k y R e L U LeakyReLU LeakyReLU 函数的表达式如下:
L e a k y R e L U ( x ) = { 0 , x ≤ 0 a x , x > 0 LeakyReLU(x)=\left\{ \begin{aligned} &0,&x \le 0\\ &ax,&x>0 \end{aligned} \right. LeakyReLU(x)={0,ax,x≤0x>0
可以选择是否传入参数 a
,默认是 0.01 0.01 0.01 ,若将 a
改为 0.1 0.1 0.1 ,可以将参数传入为 torch.nn.LeakyReLU(0.1)
。