碧蓝的天空丶

Pytorch：模型的权值初始化与损失函数

前期回顾
一、权值初始化
- 1.1 梯度消失与梯度爆炸
- 1.2 Xavier初始化
- 1.3 Kaiming初始化
- 1.4 十种权重初始化方法
二、损失函数
- 2.1 损失函数初步介绍
- 2.2 交叉熵损失CrossEntropyLoss
- - nn.CrossEntropyLoss
- 2.3 剩余的17种损失函数介绍
- - （1）nn.NLLLoss
  - （2）nn.BCELoss
  - （3）nn.BCEWithLogists Loss
  - （4）nn.L1Loss
  - （5）nn.MSELoss
  - （6）nn.SmoothL1Loss
  - （7）nn.PoissonNLLLoss
  - （8）nn.KLDivLoss
  - （9）nn.MarginRankingLoss
  - （11）nn.SoftMarginLoss
  - （12）nn.MultiLabelSortMarginLoss
  - （13）nn.MultiMarginLoss（hingLoss）
  - （14）nn.TripletMarginLoss
  - （15）nn.HingeEmbeddingLoss
三、总结
参考博客

前期回顾

Pytorch：简介、张量、简单操作和回归模型
Pytorch：数据读取机制（DataLoader与Dataset）
Pytorch：数据增强
Pytorch：模型创建（Module）、模型容器（Containers）、AlexNet构建
Pytorch：网络层介绍（卷积层、池化层、线性层、激活函数层）和多层感知机

一、权值初始化

在网络模型搭建完成之后，对网络中的权重进行恰当的初始化是非常重要的，深度模型有关数值稳定性的典型问题是衰减（vanishing）和爆炸（explosion），之后再来看看常用的权值初始化的方法。

1.1 梯度消失与梯度爆炸

先回顾一下线性层的概念图，如下所示：

然后我们给出梯度消失和梯度爆炸的概念解释：

梯度消失：如果导数（后面会解释这个导数的含义）小于1，那么随着网络层数的增加，梯度更新信息会朝着指数衰减的方式减少这就是梯度消失。梯度消失时，越靠近输入层的参数w越是几乎不动。

梯度爆炸：在反向传播过程中需要对激活函数进行求导，如果导数大于1，那么随着网络层数的增加，梯度更新将会朝着指数爆炸的方式增加。梯度爆炸时，越是靠近输入层的参数w变化越快。

二者问题问题都是因为网络太深,网络权值更新不稳定造成的。本质上是因为梯度反向传播中的连乘效应（小于1连续相乘多次）。下面就做一个详细的解释。

如上图所示，假设要算 $W 2$ 的梯度，则根据链式法有： $\mathrm{H}_2=\mathrm{H}_1*\mathrm{W}_2$ $\begin{aligned} \Delta\text{W}_2 &=\frac{\partial\mathrm{Loss}}{\partial\mathrm{W}_2}=\frac{\partial\mathrm{Loss}}{\partial\mathrm{out}}*\frac{\partial\mathrm{out}}{\partial\mathrm{H}_2}*\frac{\partial\mathrm{H}_2}{\partial\mathrm{w}_2} \\ &=\frac{\partial\text{Loss}}{ \partial\text{out }} * \frac { \partial\text{out}}{ \partial\text{H}_2}*\text{H}_1 \end{aligned}$ 当神经网络的层数较多时，模型的数值稳定性容易变差。假设一个层数为 $L$ 的多层感知机的第 $l$ 层 $\boldsymbol{H}^{(l)}$ 的权重参数为 $\boldsymbol{W}^{(l)}$ ，输出层 $\boldsymbol{H}^{(L)}$ 的权重参数为 $\boldsymbol{W}^{(L)}$ 。为了便于讨论，不考虑偏差参数，且设所有隐藏层的激活函数为恒等映射（identity mapping） $\phi(x) = x$ 。给定输入 $\boldsymbol{X}$ ，多层感知机的第 $l$ 层的输出 $\boldsymbol{H}^{(l)} = \boldsymbol{X} \boldsymbol{W}^{(1)} \boldsymbol{W}^{(2)} \ldots \boldsymbol{W}^{(l)}$ 。此时，如果层数 $l$ 较大， $\boldsymbol{H}^{(l)}$ 的计算可能会出现衰减或爆炸。

举个例子，假设输入和所有层的权重参数都是标量，如权重参数为0.2和5，多层感知机的第30层输出为输入 $\boldsymbol{X}$ 分别与 $0.2^{30} \approx 1 \times 10^{-21}$ （衰减）和 $5^{30} \approx 9 \times 10^{20}$ （爆炸）的乘积。类似地，当层数较多时，梯度的计算也更容易出现衰减或爆炸。

如果发生梯度消失或者爆炸，就会导致模型无法训练，为了避免这个问题，我们可以想办法将网络的输出层控制在一定范围内，这样就可以使模型正常训练了，下面便来分析初始化取值对模型的影响，测试代码如下：

import os
import torch
import random
import numpy as np
import torch.nn as nn
# from tools.common_tools import set_seed

def set_seed(seed=1): # 设置随机种子
    random.seed(seed)
    np.random.seed(seed)
    torch.manual_seed(seed)
    torch.cuda.manual_seed(seed)

set_seed(1)  # 设置随机种子


class MLP(nn.Module):
    def __init__(self, neural_num, layers):
        super(MLP, self).__init__()
        self.linears = nn.ModuleList([nn.Linear(neural_num, neural_num, bias=False) for i in range(layers)])
        self.neural_num = neural_num

    # 正向传播
    def forward(self, x):
        for (i, linear) in enumerate(self.linears):
            x = linear(x)
            x = torch.relu(x)

            print("layer:{}, std:{}".format(i, x.std()))
            if torch.isnan(x.std()):
                print("output is nan in {} layers".format(i))
                break

        return x
    def initialize(self):
        for m in self.modules():
            if isinstance(m, nn.Linear):
                nn.init.normal_(m.weight.data) # 用标准正态分布做初始化

layer_nums = 100
neural_nums = 256
batch_size = 16

net = MLP(neural_nums, layer_nums) # 创建类
net.initialize() # 模型初始化

inputs = torch.randn((batch_size, neural_nums))  # mean=0, std=1

output = net(inputs) # 将inputs传入网络
print(output)

运行测试代码后会发现，在33层和34层的时候，神经网络的输出就成了inf，甚至在35层的时候，神经网络的输出成了nan。根据上面的权重推导的公式，如果出现nan的话，在反向传播的时候，这些权重就不能够被更新，这就是所谓的梯度爆炸现象。

这是因为正向传播的时候，权重会影响到每一层的输出。下面推导正向传播中每一层输出的方差是如何变化。首先给出统计学关于期望和方差的基本公式：

$E [X Y] = E [X] E [Y]$ ，如果X和Y相互独立
$D[X] = E[X^2]-(E[X])^2$
$D [X + Y] = D [X] + D [Y]$ ，如果X和Y相互独立
那么有 $\begin{aligned} &\mathrm{D}(\text{X Y }) \\ &=\mathrm{E}[\mathrm{X}\mathrm{Y}-\mathrm{E}(\mathrm{X}\mathrm{Y})]^2 \\ &=\mathrm{EX}^2\mathrm{Y}^2-2\mathrm{X}\mathrm{Y}\mathrm{E}(\mathrm{X}\mathrm{Y})+\mathrm{E}^2(\mathrm{X}\mathrm{Y}) \\ &\mathrm{=E(X^2)E(Y^2)-2E^2(X)E^2(Y)+E^2(X)E^2(Y)} \\ &\mathrm{=E(X^2)E(Y^2)-E^2(X)E^2(Y)} \\ &\mathrm{=D(X)D(Y)+D(X)[E(Y)]^2+D(Y)[E(X)]^2} \end{aligned}$ 如果 $E [X] = 0$ ， $E [Y] = 0$ ，则有 $D [X Y] = D [X] D [Y]$
仍然以下图为例，看看每层之间方差的关系：

第一个隐层的方差如下计算：
$\begin{aligned} &\mathrm{H_{11}=\sum_{i=0}^nX_i*W_{1i}} \\ \mathrm{D}\left(\mathrm{H}_{11}\right)&=\sum_{\mathrm{i}=0}^\mathrm{n}\mathrm{D}\left(\mathrm{X}_{\mathrm{i}}\right)*\mathrm{D}\left(\mathrm{W}_{11}\right)\\ &=\text{n}*(1*1) \\ &=\text{n} \\ \mathrm{std~(H_{11})}&=\sqrt{\mathrm{D}\left(\mathrm{H}_{11}\right)}=\sqrt{\mathrm{n}} \end{aligned}$ 于是由于输入数据和权重都是均值为0，方差为1的标准正态。由上面公式的推导可以知道，经过一个网络层方差会扩大 $n$ 倍。如果深度神经网络的层数过多，那么这方差将会以指数级别增长，于是才到了35层就出现了nan的情况。

搞清楚上述原因后呢，我们只需要让网络层的输出方差保持尺度不变就可以避免发生取值为nan的情况了。由上图可以知道，每一层的输出方差和每一层神经元个数以及前一层输出方差和本层权重的方差有关，最简单的一种方式就是控制每一层输出的方差都为1，也就是人为地给每一个层输出方差都加上一个系数。首先，每一层神经元个数没法变，而前一层输出方差是1又涉及到了上上层的方差，所以最简单的就是变动权重的方差，即： $\begin{aligned}&\mathrm{D(H_1)=n\times D(X)\times D(W)=1}\\&\mathrm{D(W)=\frac1n~=>std(W)=\sqrt{\frac1n}}\end{aligned}$ 这样，如果每层权重在初始化的时设置为 $std(W)=\sqrt{\frac{1}{n}}$ ，那么每一层的输出方差都为1，这样便不会发生nan的情况了。要实现这个效果，只需要修改上述测试代码中初始化的一行：

    def initialize(self):
        for m in self.modules():
            if isinstance(m, nn.Linear):
                nn.init.normal_(m.weight.data, std=np.sqrt(1/self.neural_num))         # 权重方差改成了np.sqrt(1/self.neural_num))

所以只要采用恰当的权值初始化方法，就可以实现多层神经网络的输出值的尺度维持在一定范围内, 这样在反向传播的时候，就有利于缓解梯度消失或者爆炸现象的发生，测试结果如下：

1.2 Xavier初始化

方差一致性：保持数据尺度范围维持在恰当范围，通常方差为1。然后上面只探讨了线性层的情况下的控制方差变化尺度的方式，但如果有了激活函数应该怎么对权重进行初始化呢？其实这个问题已经有学者回答了。

2010年Xavier发表了一篇文章（Understanding the difficuty of training deep feedforward neural networks），详细探讨了如果有激活函数的时候，如何进行权重初始化，文章中也是运用的方差一致性原则，但考虑的是饱和激活函数，如sigmoid和tanh。文章中的公式推导如下： $\begin{aligned} &\boldsymbol{n_\mathrm{i}}*\mathrm{D}(\mathcal{W})=1 \\ &n_{\mathrm{i}+1}*\mathrm{D}(\mathrm{W})=1 \\ &\mathrm{\Rightarrow D(W)=\frac2{n_i+n_{i+1}}} \end{aligned}$ 其中这里的 $n_{i}$ ， $n_{i+1}$ 分别指的输入层和输出层神经元个数。通常情况下，Xavier采用均匀分布对权重进行初始化，于是可以利用均匀分布的方差公式来推导一下均匀分布的上限和下限： $\begin{aligned}&\mathrm{W}\sim\boldsymbol{U}[-\mathrm{a},\mathrm{a}]\\&\mathrm{D(W)}=\frac{(-\mathrm{a}-\mathrm{a})^2}{12}=\frac{(2\mathrm{a})^2}{12}=\frac{\mathrm{a}^2}3\end{aligned}$ 令两个D ( W ) D(W)D(W)相等就会得到： $\begin{aligned}&\mathrm{\frac2{n_i+n_{i+1}}~=\frac{a^2}3\Rightarrow a=\frac{\sqrt{6}}{\sqrt{n_i+n_{i+1}}}}\\&\mathrm{\Rightarrow W~\sim U\left[-\frac{\sqrt{6}}{\sqrt{n_i+n_{i+1}}}~,\frac{\sqrt{6}}{\sqrt{n_i+n_{i+1}}}~\right]}\end{aligned}$ 上面便是Xavier初始化方法简要推导，我们只需要修改测试代码中参数初始化几行即可(调用nn.init.xavier_uniform_)：

    def initialize(self):
        for m in self.modules():
            if isinstance(m, nn.Linear):
                # Xavier初始化权重
                tanh_gain = nn.init.calculate_gain('tanh')
                nn.init.xavier_uniform_(m.weight.data, gain=tanh_gain)

代码里面用到一个函数nn.init.calculate_gain(nonlinearity,param=**None**)

作用：是计算激活函数的方差变化尺度，用人话说就是输入数据的方差除以经过激活函数之后的输出数据的方差。

参数	作用
nonlinearity	表示激活函数的名称，如tanh。
param	表示激活函数的参数，如Leaky ReLU的negative_slop。

完整的测试代码如下，不要忘了Xavier初始化方法的适用激活函数。

import os
import torch
import random
import numpy as np
import torch.nn as nn
# from tools.common_tools import set_seed

def set_seed(seed=1): # 设置随机种子
    random.seed(seed)
    np.random.seed(seed)
    torch.manual_seed(seed)
    torch.cuda.manual_seed(seed)

set_seed(1)  # 设置随机种子


class MLP(nn.Module):
    def __init__(self, neural_num, layers):
        super(MLP, self).__init__()
        self.linears = nn.ModuleList([nn.Linear(neural_num, neural_num, bias=False) for i in range(layers)])
        self.neural_num = neural_num

    # 正向传播
    def forward(self, x):
        for (i, linear) in enumerate(self.linears):
            x = linear(x)
            x = torch.tanh(x)

            print("layer:{}, std:{}".format(i, x.std()))
            if torch.isnan(x.std()):
                print("output is nan in {} layers".format(i))
                break

        return x
    def initialize(self):
        for m in self.modules():
            if isinstance(m, nn.Linear):
                # Xavier初始化权重
                tanh_gain = nn.init.calculate_gain('tanh')
                nn.init.xavier_uniform_(m.weight.data, gain=tanh_gain)

layer_nums = 100
neural_nums = 256
batch_size = 16

net = MLP(neural_nums, layer_nums)
net.initialize()

inputs = torch.randn((batch_size, neural_nums))  # normal: mean=0, std=1

Xavier初始化测试代码运行结果如下：

1.3 Kaiming初始化

2012年AlexNet出现之后，非饱和函数relu也用到了神经网络中，而Xavier初始化对于非饱和函数的实现效果却不好，读者可以将Xavier初始化测试代码中的激活函数改为tanh后自行检验。为了应对非饱和函数带来的困难，学者在2015年的Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification提出了Kaiming初始化的方法。

该方法仍然考虑了方差一致性原则，针对的激活函数是非饱和函数ReLU及其变种。类似于Xavier，经过公示推导，最后的权值标准差是这样的： $\begin{aligned} &\mathbf{D}(\text{W })=\frac2{\boldsymbol{n_\mathrm{i}}} \\ &\mathbf{D}(\text{W})=\frac2{(1+\mathbf{a}^2)+\boldsymbol{n}_\mathrm{i}} \\ &\mathrm{std(W)}=\sqrt{\frac2{(1+a^2)*n_i}} \end{aligned}$ 类似于Xavier初始化方法的调用，我们只需要修改测试代码中参数初始化几行即可(调用nn.init.kaiming_normal_)：

    def initialize(self):
        for m in self.modules():
            if isinstance(m, nn.Linear):
                # Kaiming初始化权重
                 nn.init.kaiming_normal_(m.weight.data)

运行结果如下：

所以从上面的学习中，我们知道如果避免梯度爆炸或者梯度消失的现象，就得控制输出层的值的范围尺度，这要求我们采取合理的权重初始化方法，有了合理的权重初始化方法就再也不用害怕nan了。

1.4 十种权重初始化方法

除了上面的两种初始化方法之外，Pytorch里面提供了很多权重初始化的方法，可以分为下面的四大类：

针对饱和激活函数（如sigmoid， tanh）：Xavier均匀分布， Xavier正态分布
针对非饱和激活函数（relu及变种）：Kaiming均匀分布， Kaiming正态分布
三个常用的分布初始化方法：均匀分布，正态分布，常数分布
三个特殊的矩阵初始化方法：正交矩阵初始化，单位矩阵初始化，稀疏矩阵初始化

详情可以查阅官Pytorch方文档

二、损失函数

2.1 损失函数初步介绍

损失函数：衡量模型输出与真实标签的差异。而当我们谈及损失函数的时候，往往会有三个概念：损失函数，代价函数，目标函数。实际上，这三者并不是同一个东西，下面简要了解下：

Loss Function：计算一个样本的模型输出与真实标签的差异 $Loss=f(\hat{y},y)$
Cost Function：计算整个样本集的模型输出与真实标签的差异，是所有样本Loss function的平均值。即 $cost=\frac{1}{N}\sum_{i=1}^{N}f(\hat{y},y)$
Objective Function：就是Cost Function加上正则项，即Obj=Cost+Regularization

（实际上呢，我们一般在衡量模型输出和真实标签的差异的时候，往往都直接说成损失函数，没啥区别，了解一下就好不必深究~。）

关于损失函数的初始化和使用方法的运行机制，感兴趣的读者可以从参考博客中进一步查阅。我呢就做个简单的概括吧，实际上损失函数也是一个Module，那么初始化后就有Module的8个属性字典，使用的方法依然是定义在forward函数中。还记得我们在Tensor张量介绍中的Softmax回归模型吗？在那一节中我就简要地说到了交叉熵函数，但当时是自定义实现的，下面我们就详细的学习pytorch中自带的nn.CrossEntropyLoss，这个函数在分类任务中很常用，所以得重点掌握哦~

2.2 交叉熵损失CrossEntropyLoss

功能：nn.LogSoftmax()与nn.NULLLoss()结合，进行交叉熵计算

参数	作用
weight	各类别的loss设置权限
ignore_index	忽略某个类别
reduction	计算模式，可为none/sum/mean。none:逐个元素计算;sum :返回所有元素求和，返回标量;mean :加权平均，返回标量（默认）

实际上这里的交叉熵损失函数并不是公式意义上的交叉熵损失函数，而是有一些区别。普通的交叉熵损失函数如下： $\mathrm{H}(\boldsymbol{P},\boldsymbol{Q})=-\sum_{\mathrm{i}=1}^\mathrm{N}\boldsymbol{P}\left(\boldsymbol{x}_\mathrm{i}\right)\log\boldsymbol{Q}\left(\boldsymbol{x}_\mathrm{i}\right)$ 其中 $P$ 表示数据的原始分布， $Q$ 表示模型输出的分布，而交叉熵损失用来衡量两个分布之间的差异程度：交叉熵越低则两个分布越近。nn.CrossEntropyLoss一个不同就是先用nn.LogSoftmax()把模型的输出值归一化成了概率分布的形式，然后是单个样本的输出，其中并且没有求和符号。

可能有读者想知道为什么交叉熵可以衡量两个分布的差异，交叉熵究竟是个什么东西呢？为了回答这样的问题，就得溯源到一些基本的概念了：

熵用来描述事件的不确定性，事件 $P$ 发生的不确定程度记作 $H (P)$ 。一个事物不确定性越大，熵就越大。熵的公式如下： $\mathrm{H(P)=E_{x\sim p}\left[I(x)\right]=-\sum_{i}^{N}P\left(x_{i}\right)logP\left(x_{i}\right)}$ 当然这只是离散形式，类似地也能够写出连续形式。
其中 $I (X)$ 被称作自信息，自信息的公式定义如下：
原来这个熵是自信息的一个期望，那么就得先看看自信息是什么东西？下面是自信息的公式：
$I (x) = - l o g [p (x)]$ 也就是说自信息就是一个事件发生的概率，然后取对数再取反。根据这个定义式我们可以如果知道一个事件发生的概率越大，那么自信息就会少。所有事件发生的概率都很大，那么熵就会小，则事件的不确定性就小。可能有点抽象，举个例子，比如说我呢中奖的概率是90%，那么我中奖的概率就是非常高的，于是关于我中奖这件事情的不确定性程度就很低；但反之，我不中奖的概率是10%，于是我不中奖这个事件的不确定性就很高。一个不确定性很高的事件的对立事件是不确定性很低的事件，那么二者的和什么时候才是最小的呢？其实这个我们我们可以用凸优化的方法来回答，利用拉格朗日数乘法计算出极值点后，可以知道当每个事件发生的概率相等时，所有事件的不确定性和最大，如下图所示：(这是只有两个事件的情况，且二者为对立事件，横轴为事件 $P$ 发生的概率)
这个图像在二分类模型中经常会碰到

下一个要说到的概念呢是相对熵，相对熵又称为KL散度，用来衡量两个分布之间的差异。先来看看公式的定义： $\boldsymbol{D}_{\mathrm{KL}}\left(\boldsymbol{P},\boldsymbol{Q}\right)=\boldsymbol{E}_{\boldsymbol{x}\sim\boldsymbol{p}}\left[\mathrm{log}\frac{\boldsymbol{P}(\boldsymbol{x})}{\boldsymbol{Q}(\boldsymbol{x})}\right]$ 可以发现是KL散度不同于距离函数，因为KL散度不具有对称性。这是因为 $P$ 是数据的真实分布， $Q$ 是模型输出的分布，公式中是用Q的分布去逼近P的分布，所以这不具备对称性。

而交叉熵可以用上面的概念定义，即交叉熵=信息熵+相对熵，公式如下： $\mathrm{H}(\boldsymbol{P},\boldsymbol{Q})=-\sum_{\mathrm{i}=1}^\mathrm{N}\boldsymbol{P}\left(\boldsymbol{x_\mathrm{i}}\right)\log\boldsymbol{Q}\left(\boldsymbol{x_\mathrm{i}}\right)$ 下面呢就是关于交叉熵=信息熵+相对熵的简单证明： $\begin{aligned} \boldsymbol{D_\mathrm{KL}}\left(\boldsymbol{P},\boldsymbol{Q}\right)& =\boldsymbol{E_\mathrm{x\sim p}}\left[\log\frac{\boldsymbol{P}(\boldsymbol{x})}{\mathrm{Q}(\boldsymbol{x})}\right] \\ &=\boldsymbol{E}_{\boldsymbol{x}\sim\boldsymbol{p}}[\log\boldsymbol{P}(\boldsymbol{x})-\log\boldsymbol{Q}(\boldsymbol{x})] \\ &=\sum_{\mathrm{i}=1}^\mathrm{N}\boldsymbol{P}\left(\boldsymbol{x}_\mathrm{i}\right)\left[\log\boldsymbol{P}\left(\boldsymbol{x}_\mathrm{i}\right)-\log\boldsymbol{Q}\left(\boldsymbol{x}_\mathrm{i}\right)\right] \\ &=\sum_{\mathrm{i}=1}^\mathrm{N}\boldsymbol{P}\left(\boldsymbol{x}_\mathrm{i}\right)\log\boldsymbol{P}\left(\boldsymbol{x}_\mathrm{i}\right)-\sum_{\mathrm{i}=1}^\mathrm{N}\boldsymbol{P}\left(\boldsymbol{x}_\mathrm{i}\right)\log\boldsymbol{Q}\left(\boldsymbol{x}_\mathrm{i}\right) \end{aligned}$ 移项即证。

于是根据上面补充的信息以及推导过程，我们有：
$H ( P , Q ) = D _{K L} ( P , Q ) + H ( P )$ 其中 $P$ 是数据的真实分布， $Q$ 是模型输出的分布。在机器学习中，由于训练集是给定的，于是 $H (P)$ 就是已经知道的常数，所以最小化交叉熵等价于最小化相对熵。

在机器学习模型中，我们最小化交叉熵，其实就是最小化相对熵，因为我们训练集取出来之后就是固定的了，熵就是一个常数。按照交叉熵的定义式，交叉熵损失函数的取值范围是 $[0，+\infty]$ ，它的取值范围受到模型输出与实际输出之间的误差程度的影响。

所以如果对交叉熵使用softmax，就可以将一个输出值（取值为 $[0，+\infty]$ ）转换到概率取值的一个范围。下面我们来看看nn.CrossEntropyLoss的交叉熵是如何定义的。 $\mathrm{loss(x,~class~)=-\log\left(\frac{\exp(x[~class~])}{\sum_j\exp(x[j])}\right)=-x[~class~]+\log\left(\sum_j\exp(x[j])\right)}$

可以看到nn.CrossEntropyLoss首先执行了一个 $\mathrm{softmax}$ 运算，把某个神经元的输出归一化为概率取值后，然后再对这个概率取值去了对数后又添加上了负号一下。其中 $\mathrm{x}$ 是样本， $\mathrm{class}$ 就是某一个类别， $\mathrm{x[class]}$ 表示样本x在类别[class]中的概率。我们可以对比一下普通的交叉熵公式： $\mathrm{H}(\boldsymbol{P},\boldsymbol{Q})=-\sum_{\mathrm{i}=1}^\mathrm{N}\boldsymbol{P}\left(\boldsymbol{x}_\mathrm{i}\right)\log\boldsymbol{Q}\left(\boldsymbol{x}_\mathrm{i}\right)$ 由于样本x必然是某个类别，不妨设 $\boldsymbol{P}\left(\boldsymbol{x}_\mathrm{i}\right)=1$ ，则 $\boldsymbol{P}\left(\boldsymbol{x}_\mathrm{j \ne i}\right)=0$ ，那么就可以去掉求和符号。在交叉熵损失函数nn.CrossEntropyLoss中，使用nn.LogSoftmax()将概率归一化，然后添加了一个负号（nn.NLLoss用于实现负对数似然函数里面的负号功能），于是便得到了交叉熵损失函数 $\mathrm{loss(x,class)}$

下面就回顾一下交叉熵损失函数表格里参数的作用，第一个参数weight用于各类别的loss设置权值，主要用于类别不均匀的情况，加上weight后损失函数变成这样： $\text{loss(x, class )= weight [ class ]}\left(-\text{x[ class ]}+\log\left(\sum_\mathrm{j}\exp(\mathrm{x[j]})\right)\right)$ 于是我们可以更改权值的分配使得模型关注不同的类别。

第二个参数ignore_index表示某个类别不去计算loss。而关于第三个参数reduction在表格中已有，不再详述，主要还是从如下测试代码中看看区别：

import torch
import torch.nn as nn
import torch.nn.functional as F
import numpy as np

# 构建虚拟数据

inputs = torch.tensor([[1, 2], [1, 3], [1, 3]], dtype=torch.float) # 这里就是模型预测的输出， 这里是两个类，可以看到模型输出是数值，我们得softmax一下转成分布
target = torch.tensor([0, 1, 1], dtype=torch.long) # 标签。这里的类型必须是long， 两个类0和1

# ----------------------------------- CrossEntropy loss: reduction -----------------------------------

# 三种模式损失函数
loss_f_none = nn.CrossEntropyLoss(weight=None, reduction='none')
loss_f_sum = nn.CrossEntropyLoss(weight=None, reduction='sum')
loss_f_mean = nn.CrossEntropyLoss(weight=None, reduction='mean')

# forward
loss_none = loss_f_none(inputs, target)
loss_sum = loss_f_sum(inputs, target)
loss_mean = loss_f_mean(inputs, target)

# view
print("Cross Entropy Loss:\n ", loss_none, loss_sum, loss_mean)
import torch
# --------------------------------- compute by hand
# 这一部分是自己实现一边交叉熵损失函数的计算
idx = 0

input_1 = inputs.detach().numpy()[idx]      # [1, 2]
target_1 = target.numpy()[idx]              # [0]

# 交叉熵损失函数的第一项
x_class = input_1[target_1]

# 交叉熵损失函数的第二项
sigma_exp_x = np.sum(list(map(np.exp, input_1)))
log_sigma_exp_x = np.log(sigma_exp_x)

# 输出loss
loss_1 = -x_class + log_sigma_exp_x

print("第一个样本loss为: ", loss_1)

运行结果如下：

可以看到none模式下是输出三个损失， sum下是三个损失求和，mean下是三个损失求平均。这里还要注意一下这里的target，这是给出每个样本属于哪一个类，类型必须是torch.long。下面实现一下带权值的交叉熵损失函数，只需要将定义损失函数部分修改如下：

# def loss function
    weights = torch.tensor([1, 2], dtype=torch.float)
    loss_f_none_w = nn.CrossEntropyLoss(weight=weights, reduction='none')
    loss_f_sum = nn.CrossEntropyLoss(weight=weights, reduction='sum')
    loss_f_mean = nn.CrossEntropyLoss(weight=weights, reduction='mean')

运行结果：

下面看看这个加权后是怎么在mean模式下计算损失。首先发现，给类别加上权值之后，对应样本的损失就会相应的加倍。三个样本中，第一个权值为1，后两个权值为2，所以分母应该是5而不是3。所以mean模式下求平均不是除以样本的个数，而是样本所占的权值的总份数。

nn.CrossEntropyLoss

2.3 剩余的17种损失函数介绍

（1）nn.NLLLoss

功能：实现负对数似然函数中的负号功能

参数	作用
weight	各类别的loss设置权限
ignore_index	忽略某个类别
reduction	计算模式，可为none/sum/mean。none:逐个元素计算;sum :返回所有元素求和，返回标量;mean :加权平均，返回标量（默认）

测试代码:

import torch
import torch.nn as nn
import torch.nn.functional as F
import numpy as np
import random


inputs = torch.tensor([[1, 2], [1, 3], [1, 3]], dtype=torch.float)
target = torch.tensor([0, 1, 1], dtype=torch.long)

network = nn.LogSoftmax()
out = network(inputs)
print(out)
NLloss = nn.NLLLoss(reduction='none')
output = NLloss(network(inputs), target)
print(output)

（2）nn.BCELoss

功能：二分类交叉熵

参数	作用
weight	各类别的loss设置权限
ignore_index	忽略某个类别
reduction	计算模式，可为none/sum/mean。none:逐个元素计算;sum :返回所有元素求和，返回标量;mean :加权平均，返回标量（默认）

注意事项：输入值取值在[0,1]，需要符合概率取值
测试代码:

import torch
import torch.nn as nn
import torch.nn.functional as F
import numpy as np
import random

# ----------------------------------- 2 NLLLoss -----------------------------------
inputs = torch.tensor([[1, 2], [2, 2], [3, 4], [4, 5]], dtype=torch.float)
target = torch.tensor([[1, 0], [1, 0], [0, 1], [0, 1]], dtype=torch.float)

target_bce = target

# itarget
inputs = torch.sigmoid(inputs)

weights = torch.tensor([1, 1], dtype=torch.float)

loss_f_none_w = nn.BCELoss(weight=weights, reduction='none')
loss_f_sum = nn.BCELoss(weight=weights, reduction='sum')
loss_f_mean = nn.BCELoss(weight=weights, reduction='mean')

# forward
loss_none_w = loss_f_none_w(inputs, target_bce)
loss_sum = loss_f_sum(inputs, target_bce)
loss_mean = loss_f_mean(inputs, target_bce)

# view
print("\nweights: ", weights)
print("BCE Loss", loss_none_w, loss_sum, loss_mean)

运行结果如下：
首先注意到的就是target的不同，第一是类型变成了float，第二是每个样本属于哪一类的时候被写成独热编码的形式，这是因为每个神经元一一对应的去计算loss，而不是一个整的神经元向量去计算loss。根据inputs，这里是两个神经元的。

（3）nn.BCEWithLogists Loss

在BCELoss中我们会发现，如果输入数据不在[0,1]区间内会报错，针对这一问题提出了nn.BCEWithLogists Loss
功能：结合Sigmoid与二分类交叉熵

参数	作用
pos_weight	正样本的权值
weight	各类别的loss设置权限
ignore_index	忽略某个类别
reduction	计算模式，可为none/sum/mean。none:逐个元素计算;sum :返回所有元素求和，返回标量;mean :加权平均，返回标量（默认）

参数多了一个pow_weight，该参数是平衡正负样本的权值用的。比如正样本有100个，负样本有300个，那么这个数可以设置为3。

注意事项：网络最后不加sigmoid函数

测试代码：

import torch
import torch.nn as nn
import torch.nn.functional as F
import matplotlib.pyplot as plt
import numpy as np
import random

def set_seed(seed=1): # 设置随机种子
    random.seed(seed)
    np.random.seed(seed)
    torch.manual_seed(seed)
    torch.cuda.manual_seed(seed)

# ----------------------------------- BCE with Logis Loss -----------------------------------
inputs = torch.tensor([[1, 2], [2, 2], [3, 4], [4, 5]], dtype=torch.float)
target = torch.tensor([[1, 0], [1, 0], [0, 1], [0, 1]], dtype=torch.float)

target_bce = target

# inputs = torch.sigmoid(inputs)

weights = torch.tensor([1, 1], dtype=torch.float)

loss_f_none_w = nn.BCEWithLogitsLoss(weight=weights, reduction='none')
loss_f_sum = nn.BCEWithLogitsLoss(weight=weights, reduction='sum')
loss_f_mean = nn.BCEWithLogitsLoss(weight=weights, reduction='mean')

# forward
loss_none_w = loss_f_none_w(inputs, target_bce)
loss_sum = loss_f_sum(inputs, target_bce)
loss_mean = loss_f_mean(inputs, target_bce)

# view
print("\nweights: ", weights)
print(loss_none_w, loss_sum, loss_mean)

（4）nn.L1Loss

功能：计算input与target之差的绝对值

参数	作用
reduction	计算模式，可为none/sum/mean。none:逐个元素计算;sum :返回所有元素求和，返回标量;mean :加权平均，返回标量（默认）

import torch
import torch.nn as nn
import torch.nn.functional as F
import matplotlib.pyplot as plt
import numpy as np
import random

def set_seed(seed=1): # 设置随机种子
    random.seed(seed)
    np.random.seed(seed)
    torch.manual_seed(seed)
    torch.cuda.manual_seed(seed)

# ------------------------------------------------- L1 loss ----------------------------------------------
inputs = torch.ones((2, 2))
target = torch.ones((2, 2)) * 3

loss_f = nn.L1Loss(reduction='none')
loss = loss_f(inputs, target)

print("input:{}\ntarget:{}\nL1 loss:{}".format(inputs, target, loss))

（5）nn.MSELoss

功能：计算input与target之差的平方

参数	作用
reduction	计算模式，可为none/sum/mean。none:逐个元素计算;sum :返回所有元素求和，返回标量;mean :加权平均，返回标量（默认）

import torch
import torch.nn as nn
import torch.nn.functional as F
import matplotlib.pyplot as plt
import numpy as np
import random

def set_seed(seed=1): # 设置随机种子
    random.seed(seed)
    np.random.seed(seed)
    torch.manual_seed(seed)
    torch.cuda.manual_seed(seed)

# ------------------------------------------------- MSE loss ----------------------------------------------
inputs = torch.ones((2, 2))
target = torch.ones((2, 2)) * 3
loss_f_mse = nn.MSELoss(reduction='none')
loss_mse = loss_f_mse(inputs, target)

print("MSE loss:{}".format(loss_mse))

（6）nn.SmoothL1Loss

功能：创建一个标准，如果绝对元素误差低于β，则使用平方项，否则使用L1项。它对异常值的敏感度低于torch.nn.MSELoss，并且在某些情况下可以防止爆炸梯度

参数	作用
reduction	计算模式，可为none/sum/mean。
none	逐个元素计算;
sum	返回所有元素求和，返回标量;
mean	加权平均，返回标量（默认）

测试代码：

import torch
import torch.nn as nn
import torch.nn.functional as F
import matplotlib.pyplot as plt
import numpy as np
import random

def set_seed(seed=1): # 设置随机种子
    random.seed(seed)
    np.random.seed(seed)
    torch.manual_seed(seed)
    torch.cuda.manual_seed(seed)

# ------------------------------------------------- Smooth L1 loss ----------------------------------------------

inputs = torch.linspace(-3, 3, steps=500)
target = torch.zeros_like(inputs)

loss_f = nn.SmoothL1Loss(reduction='none')

loss_smooth = loss_f(inputs, target)

loss_l1 = np.abs(inputs.numpy())

plt.plot(inputs.numpy(), loss_smooth.numpy(), label='Smooth L1 Loss')
plt.plot(inputs.numpy(), loss_l1, label='L1 loss')
plt.xlabel('x_i - y_i')
plt.ylabel('loss value')
plt.legend()
plt.grid()
plt.show()

采用这种平滑的损失函数可以减轻离群点带来的影响

（7）nn.PoissonNLLLoss

功能：泊松分布的负对数似然损失函数，分类里面如果发现数据的类别服从泊松分布，可以使用这个损失函数

参数	作用
log_input	输入是否为对数形式，决定计算公式
full	计算所有loss，默认为False
eps	修正项，避免log(input)为nan

测试代码：

import torch
import torch.nn as nn
import torch.nn.functional as F
import matplotlib.pyplot as plt
import numpy as np
import random

def set_seed(seed=1): # 设置随机种子
    random.seed(seed)
    np.random.seed(seed)
    torch.manual_seed(seed)
    torch.cuda.manual_seed(seed)

# ------------------------------------------------- Poisson NLL loss ----------------------------------------------

inputs = torch.randn((2, 2))
target = torch.randn((2, 2))

loss_f = nn.PoissonNLLLoss(log_input=True, full=False, reduction='none')
loss = loss_f(inputs, target)
print("input:{}\ntarget:{}\nPoisson NLL loss:{}".format(inputs, target, loss))

（8）nn.KLDivLoss

功能：计算KLD（divergence），KL散度，相对熵

参数	作用
reduction	计算模式，可为none/sum/mean/batchmean
batchmean	batchsize维度求平均值
none	逐个元素计算
sum	返回所有元素求和，返回标量
mean	加权平均，返回标量（默认）

注意事项：需提前将输入计算log-probabilities，如通过nn.logsoftmax()

测试代码：

import torch
import torch.nn as nn
import torch.nn.functional as F
import matplotlib.pyplot as plt
import numpy as np
import random

def set_seed(seed=1): # 设置随机种子
    random.seed(seed)
    np.random.seed(seed)
    torch.manual_seed(seed)
    torch.cuda.manual_seed(seed)

# ------------------------------------------------- KL Divergence loss ----------------------------------------------
inputs = torch.tensor([[0.5, 0.3, 0.2], [0.2, 0.3, 0.5]])
    inputs_log = torch.log(inputs)
    target = torch.tensor([[0.9, 0.05, 0.05], [0.1, 0.7, 0.2]], dtype=torch.float)

    loss_f_none = nn.KLDivLoss(reduction='none')
    loss_f_mean = nn.KLDivLoss(reduction='mean')
    loss_f_bs_mean = nn.KLDivLoss(reduction='batchmean')

    loss_none = loss_f_none(inputs, target)
    loss_mean = loss_f_mean(inputs, target)
    loss_bs_mean = loss_f_bs_mean(inputs, target)

    print("loss_none:\n{}\nloss_mean:\n{}\nloss_bs_mean:\n{}".format(loss_none, loss_mean, loss_bs_mean))

（9）nn.MarginRankingLoss

功能：计算两个向量之间的相似度，用于排序任务

特别说明：该方法计算两组数据之间的差异，返回一个n*n的loss矩阵，类似于相关性矩阵那种。

参数	作用
margin	边界值，x1与x2之间的差异值
reduction	计算模式，可为none/sum/mean

计算公式如下： $\mathrm{loss(x,y)=max(0,-y*(x1-x2)+margin)}$ y = 1时，希望x1比x2大，当x1>x2时，不产生loss；y = -1时，希望x2比x1大，当x2>x1时，不产生loss

测试代码：

import torch
import torch.nn as nn
import torch.nn.functional as F
import matplotlib.pyplot as plt
import numpy as np
import random

def set_seed(seed=1): # 设置随机种子
    random.seed(seed)
    np.random.seed(seed)
    torch.manual_seed(seed)
    torch.cuda.manual_seed(seed)
    
# ---------------------------------------------- 10 Margin Ranking Loss --------------------------------------------

x1 = torch.tensor([[1], [2], [3]], dtype=torch.float)
x2 = torch.tensor([[2], [2], [2]], dtype=torch.float)

target = torch.tensor([1, 1, -1], dtype=torch.float)

loss_f_none = nn.MarginRankingLoss(margin=0, reduction='none')

loss = loss_f_none(x1, x2, target)

print(loss)

（10）nn.MultiLabelMarginLoss
功能：多标签边界损失函数，这是一个多标签分类，就是一个样本可能属于多个类，和多分类任务还不一样。（多标签问题）

计算公式如下： $\mathrm{loss(x,y)=\sum_{ij}\frac{\max(0,1-(x[y[j]]-x[i]))}{x\cdot size(0)}}$ 举例：四分类任务，样本x属于0类和3类，标签：[0,3,-1,-1],不是[1,0,0,1]

参数	作用
reduction	计算模式，可为none/sum/mean

测试代码：

import torch
import torch.nn as nn
import torch.nn.functional as F
import matplotlib.pyplot as plt
import numpy as np
import random

def set_seed(seed=1): # 设置随机种子
    random.seed(seed)
    np.random.seed(seed)
    torch.manual_seed(seed)
    torch.cuda.manual_seed(seed)
# ---------------------------------------------- Multi Label Margin Loss -----------------------------------------

x = torch.tensor([[0.1, 0.2, 0.4, 0.8]])
y = torch.tensor([[0, 3, -1, -1]], dtype=torch.long)

loss_f = nn.MultiLabelMarginLoss(reduction='none')

loss = loss_f(x, y)

print(loss)

（11）nn.SoftMarginLoss

功能：计算二分类的logistic损失

测试代码：

import torch
import torch.nn as nn
import torch.nn.functional as F
import matplotlib.pyplot as plt
import numpy as np
import random

def set_seed(seed=1): # 设置随机种子
    random.seed(seed)
    np.random.seed(seed)
    torch.manual_seed(seed)
    torch.cuda.manual_seed(seed)
# ----------------------------------------------  SoftMargin Loss -----------------------------------------
inputs = torch.tensor([[0.3, 0.7], [0.5, 0.5]])
target = torch.tensor([[-1, 1], [1, -1]], dtype=torch.float)

loss_f = nn.SoftMarginLoss(reduction='none')

loss = loss_f(inputs, target)

print("SoftMargin: ", loss)

（12）nn.MultiLabelSortMarginLoss

功能：SoftMarginLoss多标签版本

参数	作用
weight	各类别的loss设置权值
reduction	计算模式，可为none/sum/mean

测试代码：

import torch
import torch.nn as nn
import torch.nn.functional as F
import matplotlib.pyplot as plt
import numpy as np
import random

def set_seed(seed=1): # 设置随机种子
    random.seed(seed)
    np.random.seed(seed)
    torch.manual_seed(seed)
    torch.cuda.manual_seed(seed)
# ---------------------------------------------- MultiLabel SoftMargin Loss -----------------------------------------

inputs = torch.tensor([[0.3, 0.7, 0.8]])
target = torch.tensor([[0, 1, 1]], dtype=torch.float)

loss_f = nn.MultiLabelSoftMarginLoss(reduction='none')

loss = loss_f(inputs, target)

print("MultiLabel SoftMargin: ", loss)

（13）nn.MultiMarginLoss（hingLoss）

功能：计算多分类的折页损失

计算公式如下： $\mathrm{loss(x,y)=\frac{\sum_i\max(0,margin-x[y]+x[i]))^p}{x\cdot size(0)}}$

参数	作用
p	可选1或2
weight	各类别的loss设置权值
margin	边界值
reduction	计算模式，可为none/sum/mean

测试代码：

import torch
import torch.nn as nn
import torch.nn.functional as F
import matplotlib.pyplot as plt
import numpy as np
import random

def set_seed(seed=1): # 设置随机种子
    random.seed(seed)
    np.random.seed(seed)
    torch.manual_seed(seed)
    torch.cuda.manual_seed(seed)
# ---------------------------------------------- Multi Margin Loss -----------------------------------------
x = torch.tensor([[0.1, 0.2, 0.7], [0.2, 0.5, 0.3]])
y = torch.tensor([1, 2], dtype=torch.long)

loss_f = nn.MultiMarginLoss(reduction='none')

loss = loss_f(x, y)

print("Multi Margin Loss: ", loss)

（14）nn.TripletMarginLoss

功能：计算三元组损失，人脸验证中常用

参数	作用
p	范数的阶，默认为2
margin	边界值
reduction	计算模式，可为none/sum/mean

计算公式如下： $\mathrm{L(a,p,n)=max\left\{d\left(a_i,p_i\right)-d\left(a_i,n_i\right)+margin,0\right\}}$ 简单来说三元组损失在做这个事情，我们在做人脸识别训练模型的时候，往往需要把训练集做成三元组(A, P, N)， A和P是同一个人， A和N不是同一个，然后训练模型。

想让模型把A和P看成一样的，也就是争取让A和P之间的距离小，而A和N之间的距离大，那么模型就能够进行人脸识别任务了。

测试代码：

import torch
import torch.nn as nn
import torch.nn.functional as F
import matplotlib.pyplot as plt
import numpy as np
import random

def set_seed(seed=1): # 设置随机种子
    random.seed(seed)
    np.random.seed(seed)
    torch.manual_seed(seed)
    torch.cuda.manual_seed(seed)
# ---------------------------------------------- Triplet Margin Loss -----------------------------------------
anchor = torch.tensor([[1.]])
pos = torch.tensor([[2.]])
neg = torch.tensor([[0.5]])

loss_f = nn.TripletMarginLoss(margin=1.0, p=1)

loss = loss_f(anchor, pos, neg)

print("Triplet Margin Loss", loss)

（15）nn.HingeEmbeddingLoss

功能：计算两个输入的相似性，常用于非线性embedding和半监督学习

参数	作用
margin	边界值
reduction	计算模式，可为none/sum/mean

计算公示如下： $\left.\mathrm{l_n~=~\left\{\begin{array}{ll}x_n,&\quad\mathrm{if~y_n~=~1}\\\max\left\{0,\Delta-x_n\right\},&\quad\mathrm{if~y_n~=~-1}\end{array}\right. .}\right\}$
测试代码：

import torch
import torch.nn as nn
import torch.nn.functional as F
import matplotlib.pyplot as plt
import numpy as np
import random

def set_seed(seed=1): # 设置随机种子
    random.seed(seed)
    np.random.seed(seed)
    torch.manual_seed(seed)
    torch.cuda.manual_seed(seed)
# ---------------------------------------------- Hinge Embedding Loss -----------------------------------------
inputs = torch.tensor([[1., 0.8, 0.5]])
target = torch.tensor([[1, 1, -1]])

loss_f = nn.HingeEmbeddingLoss(margin=1, reduction='none')

loss = loss_f(inputs, target)

print("Hinge Embedding Loss", loss)

（16）nn.CosineEmbeddingLoss
功能：采用余弦相似度计算两个输入的相似性

参数	作用
margin	可取值[-1,1]，推荐为[0,0.5]
reduction	计算模式，可为none/sum/meam

计算公式如下： $\left.\mathrm{loss(x,y)}=\left\{\begin{array}{ll}1-\cos\left(\mathrm{x}_1,\mathrm{x}_2\right),&\quad\text{if y}=1\\\max\left(0,\cos\left(\mathrm{x}_1,\mathrm{x}_2\right)-\text{margin}\right),&\quad\text{if y}=-1\end{array}\right.\right.$ 之所以用 $cos$ ，希望关注于这两个输入方向上的一个差异，而不是距离上的差异， $cos$ 函数如下: $\cos(\theta)=\frac{\mathrm{A}\cdot\mathrm{B}}{\|\mathrm{A}\|\|\mathrm{B}\|}=\frac{\mathrm{\sum_{i=1}^nA_i}\times\mathrm{B_i}}{\sqrt{\sum_{\mathrm{i}=1}^n\left(\mathrm{A_i}\right)^2}\times\sqrt{\sum_{\mathrm{i}=1}^n\left(\mathrm{B_i}\right)^2}}$

测试代码：

import torch
import torch.nn as nn
import torch.nn.functional as F
import matplotlib.pyplot as plt
import numpy as np
import random

def set_seed(seed=1): # 设置随机种子
    random.seed(seed)
    np.random.seed(seed)
    torch.manual_seed(seed)
    torch.cuda.manual_seed(seed)
# ----------------------------------------------  Cosine Embedding Loss -----------------------------------------
x1 = torch.tensor([[0.3, 0.5, 0.7], [0.3, 0.5, 0.7]])
x2 = torch.tensor([[0.1, 0.3, 0.5], [0.1, 0.3, 0.5]])

target = torch.tensor([[1, -1]], dtype=torch.float)

loss_f = nn.CosineEmbeddingLoss(margin=0., reduction='none')

loss = loss_f(x1, x2, target)

print("Cosine Embedding Loss", loss)

（17）nn.CTCLoss
功能：计算CTC损失，解决时序类数据的分类

参数	作用
blank	blank label
zero_infinity	无穷大的值或梯度置0
reduction	计算模式，可为none/sum/mean

测试代码：

import torch
import torch.nn as nn
import torch.nn.functional as F
import matplotlib.pyplot as plt
import numpy as np
import random

def set_seed(seed=1): # 设置随机种子
    random.seed(seed)
    np.random.seed(seed)
    torch.manual_seed(seed)
    torch.cuda.manual_seed(seed)
# ---------------------------------------------- 18 CTC Loss -----------------------------------------
T = 50      # Input sequence length
C = 20      # Number of classes (including blank)
N = 16      # Batch size
S = 30      # Target sequence length of longest target in batch
S_min = 10  # Minimum target length, for demonstration purposes

# Initialize random batch of input vectors, for *size = (T,N,C)
inputs = torch.randn(T, N, C).log_softmax(2).detach().requires_grad_()

# Initialize random batch of targets (0 = blank, 1:C = classes)
target = torch.randint(low=1, high=C, size=(N, S), dtype=torch.long)

input_lengths = torch.full(size=(N,), fill_value=T, dtype=torch.long)
target_lengths = torch.randint(low=S_min, high=S, size=(N,), dtype=torch.long)

ctc_loss = nn.CTCLoss()
loss = ctc_loss(inputs, target, input_lengths, target_lengths)

print("CTC loss: ", loss)

到这里，损失函数就介绍完了，实际上我们只需要对这些损失函数从任务的角度分分类，需要用的时候再去查具体用法就可以啦。

分类问题
- 二分类单标签问题： nn.BCELoss, nn.BCEWithLogitsLoss, nn.SoftMarginLoss
- 二分类多标签问题：nn.MultiLabelSoftMarginLoss
- 多分类单标签问题: nn.CrossEntropyLoss, nn.NLLLoss, nn.MultiMarginLoss
- 多分类多标签问题: nn.MultiLabelMarginLoss,
- 不常用：nn.PoissonNLLLoss, nn.KLDivLoss
回归问题: nn.L1Loss, nn.MSELoss, nn.SmoothL1Loss
时序问题：nn.CTCLoss
人脸识别问题：nn.TripletMarginLoss
半监督Embedding问题(输入之间的相似性): nn.MarginRankingLoss, nn.HingeEmbeddingLoss, nn.CosineEmbeddingLoss

三、总结

这次损失函数整理的内容还是很多的，主要分为两大块：权重初始化和损失函数，第一部分是权重初始化方法，而第二部分是损失函数的介绍以及了解了几种损失函数的实现

首先，我们在第一节中解决了模型模块的遗留问题—— 权重的初始化方法，了解了神经网络中梯度消失和梯度爆炸的原理，也知道了权重初始化的重要性，针对各种情况学习了不同的初始化方法，重要的是Xavier初始化和Kaiming初始化方法，分别针对非饱和激活函数和包含激活函数的网络。

然后在第二节回顾了softmax中交叉熵的概念，对损失函数有了初步了解，知道了损失函数是一个Module。然后学习了交叉熵损失函数及四个特例，交叉熵损失函数比较重要，所以补充了几点信息学的内容。

参考博客

Pytorch教程
Pytorch笔记六

你可能感兴趣的:(笔记,pytorch,人工智能,python)

python 读excel每行替换_Python脚本操作Excel实现批量替换功能 weixin_39646695 python 读excel每行替换
Python脚本操作Excel实现批量替换功能大家好，给大家分享下如何使用Python脚本操作Excel实现批量替换。使用的工具Openpyxl，一个处理excel的python库，处理excel，其实针对的就是WorkBook，Sheet，Cell这三个最根本的元素~明确需求原始excel如下我们的目标是把下面excel工作表的sheet1表页A列的内容“替换我吧”批量替换为B列的“我用来替换的
日更006 终极训练营day3 懒cici
人生创业课（2）今天的主题：学习方法一：遇到有用的书，反复读，然后结合自身实际，列践行清单，不要再写读书笔记思考这本书与我有什么关系，我在哪些地方能用到，之后我该怎么用方法二：读完书没映像怎么办?训练你的大脑，方法：每读完一遍书，立马合上书，做一场分享，几分钟都行对自己的学习要求太低，要逼自己方法三：学习深度不够怎么办？找到细分领域的榜样，把他们的文章、书籍、产品都体验一遍，成为他们的超级用户，向
【花了N长时间读《过犹不及》，不断练习，可以越通透】君君Love
我已经记不清花了多长时间去读《过犹不及》，读书笔记都写了42页，这算是读得特别精细的了。是一本难得的好书，虽然书中很多内容和圣经吻合，我不是基督徒，却觉得这样的文字值得细细品味，和我们的生活息息相关。我是个界线建立不牢固的人，常常愧疚，常常害怕他人的愤怒，常常不懂拒绝，还有很多时候表达不了自己真实的感受，心里在说不嘴里却在说好……这本书给我很多的启示，让我学会了怎样去建立属于自己的清晰的界限。建立
基于redis的Zset实现作者的轻量级排名周童學 Java redis 数据库缓存
基于redis的Zset实现轻量级作者排名系统在今天的技术架构中，Redis是一种广泛使用的内存数据存储系统，尤其在需要高效检索和排序的场景中表现优异。在本篇博客中，我们将深入探讨如何使用Redis的有序集合（ZSet）构建一个高效的笔记排行榜系统，并提供相关代码示例和详细的解析。1.功能背景与需求假设我们有一个笔记分享平台，用户可以发布各种笔记，系统需要根据用户发布的笔记数量来生成一个实时更新的
常规笔记本和加固笔记本的区别 luchengtech 电脑三防笔记本加固计算机加固笔记本
在现代科技产品中，笔记本电脑因其便携性和功能性被广泛应用。根据使用场景和需求的不同，笔记本可分为常规笔记本和加固笔记本，二者在多个方面存在显著区别。适用场景是区分二者的重要标志。常规笔记本主要面向普通消费者和办公人群，适用于家庭娱乐、日常办公、学生学习等相对稳定的室内环境。比如，人们在家用它追剧、处理文档，学生在教室用它完成作业。而加固笔记本则专为特殊行业设计，像军事、野外勘探、工业制造、交通运输
为了在未来的人工智能世界中取得成功，学生们必须学习人类写作的优点睿邸管家
澳大利亚各地的学生在新学年开始使用铅笔、钢笔和键盘学习写字。在工作场所，机器也在学习写作，如此有效，几年之内，它们可能会写得比人类更好。有时它们已经做到了，就像Grammarly这样的应用程序所展示的那样。当然，人类现在的日常写作可能很快就会由具有人工智能(AI)的机器来完成。手机和电子邮件软件常用的预测文本是无数人每天都在使用的一种人工智能写作形式。据AI行业研究机构称，到2022年，人工智能及
第八课: 写作出版你最关心的出书流程和市场分析（无戒学堂复盘）人在陌上
今天是周六，恰是圣诞节。推掉了两个需要凑腿的牌局，在一个手机，一个笔记本，一台电脑，一杯热茶的陪伴下，一个人静静地回听无戒学堂的最后一堂课。感谢这一个月，让自己的习惯开始改变，至少，可以静坐一个下午而不觉得乏味枯燥难受了，要为自己点个赞。我深知，这最后一堂课的内容，以我的资质和毅力，可能永远都用不上。但很明显，无戒学堂是用了心的，毕竟，有很多优秀学员，已经具备了写作能力，马上就要用到这堂课的内容。
python笔记14介绍几个魔法方法抢公主的大魔王 python python
python笔记14介绍几个魔法方法先声明一下各位大佬，这是我的笔记。如有错误，恳请指正。另外，感谢您的观看，谢谢啦！(1).__doc__输出对应的函数，类的说明文档print(print.__doc__)print(value,...,sep='',end='\n',file=sys.stdout,flush=False)Printsthevaluestoastream,ortosys.std
《感官品牌》读书笔记 1 西红柿阿达
原文:最近我在东京街头闲逛时，与一位女士擦肩而过，我发现她的香水味似曾相识。“哗”的一下，记亿和情感立刻像潮水般涌了出来。这个香水味把我带回了15年前上高中的时候，我的一位亲密好友也是用这款香水。一瞬间，我呆站在那里，东京的街景逐渐淡出，取而代之的是我年少时的丹麦以及喜悦、悲伤、恐惧、困惑的记忆。我被这熟悉的香水味征服了。感想:感官是有记忆的，你所听到，看到，闻到过的有代表性的事件都会在大脑中深深
Anaconda 和 Miniconda：功能详解与选择建议古月฿ python入门 python conda
Anaconda和Miniconda详细介绍一、Anaconda的详细介绍1.什么是Anaconda？Anaconda是一个开源的包管理和环境管理工具，在数据科学、机器学习以及科学计算领域发挥着关键作用。它以Python和R语言为基础，为用户精心准备了大量预装库和工具，极大地缩短了搭建数据科学环境的时间。对于那些想要快速开展数据分析、模型训练等工作的人员来说，Anaconda就像是一个一站式的“数
环境搭建 | Python + Anaconda / Miniconda + PyCharm 的安装、配置与使用
本文将分别介绍Python、Anaconda/Miniconda、PyCharm的安装、配置与使用，详细介绍Python环境搭建的全过程，涵盖Python、Pip、PythonLauncher、Anaconda、Miniconda、Pycharm等内容，以官方文档为参照，使用经验为补充，内容全面而详实。由于图片太多，就先贴一个无图简化版吧，详情请查看Python+Anaconda/Minicond
我不想再当知识的搬运工楚煜楚尧
因为学校课题研究的需要，这个暑假我依然需要完成一本书的阅读笔记。我选的是管建刚老师的《习课堂十讲》。这本书，之前我读过，所以重读的时候，感到很亲切，摘抄起来更是非常得心应手。20页，40面，抄了十天，终于在今天大功告成了。这对之前什么事都要一拖再拖的我来说，是破天荒的改变。我发现至从认识小尘老师以后，我的确发生了很大的改变。遇到必须做却总是犹豫不去做的事，我学会了按照小尘老师说的那样，在心里默默数
你竟然还在用克隆删除？Conda最新版rename命令全攻略！曦紫沐 Python基础知识 conda 虚拟环境管理
文章摘要Conda虚拟环境管理终于迎来革命性升级！本文揭秘Conda4.9+版本新增的rename黑科技，彻底告别传统“克隆+删除”的繁琐操作。从命令解析到实战案例，手把手教你如何安全高效地重命名Python虚拟环境，附带版本检测、环境迁移、故障排查等进阶技巧，助你提升开发效率10倍！一、颠覆认知：Conda居然自带重命名功能？很多开发者仍停留在“Conda无法直接重命名环境”的认知阶段，实际上自
centos7安装配置 Anaconda3
Anaconda是一个用于科学计算的Python发行版,Anaconda于Python，相当于centos于linux。下载[root@testsrc]#mwgethttps://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/Anaconda3-5.2.0-Linux-x86_64.shBegintodownload:Anaconda3-5.2.0-L
Pandas：数据科学的超级瑞士军刀科技林总 DeepSeek学AI 人工智能
**——从零基础到高效分析的进化指南**###**一、Pandas诞生：数据革命的救世主****2010年前的数据分析噩梦**：```python#传统Python处理表格数据data=[]forrowincsv_file:ifrow[3]>100androw[2]=="China":data.append(float(row[5])#代码冗长易错！```**核心痛点**：-Excel处理百万行崩
人工智能应用研究快讯 2021-11-30 峰谷皆平
[HTML]ArtificialIntelligenceforSkinCancerDetection:ScopingReviewATakiddin,JSchneider,YYang,AAbd-Alrazaq...JournalofMedicalInternet...,2021ABSTACT:Background:Skincanceristhemostcommoncancertypeaffectin
20210517坚持分享53天读书摘抄笔记非暴力沟通——爱自己 f79a6556cb19
让生命之花绽放在赫布·加德纳（HerbGardner）编写的《一千个小丑》一剧中，主人公拒绝将他12岁的外甥交给儿童福利院。他郑重地说道：“我希望他准确无误地知道他是多么特殊的生命，要不，他在成长的过程中将会忽视这一点。我希望他保持清醒，并看到各种奇妙的可能。我希望他知道，一旦有机会，排除万难给世界一点触动是值得的。我还希望他知道为什么他是一个人，而不是一张椅子。”然而，一旦负面的自我评价使我们看
从振动信号到精准预警：AI 如何重塑工业设备健康管理？缘华工业智维人工智能计算机视觉边缘计算信息与通信
在智能制造浪潮席卷全球的当下，工业生产正经历着从传统模式向智能化、数字化转型的深刻变革。在这场变革中，AI驱动的振动分析技术犹如一颗璀璨新星，成为工业设备可靠运行的“健康卫士”。它通过在设备关键部位部署振动传感器，如同医生为患者听诊般实时采集设备运行时的振动信号，再借助强大的人工智能算法对这些“工业脉搏”进行深度解析，从而实现对工业设备从故障预警到寿命预测的全周期精准守护。一、AI振动分析：设备状
Unity学习笔记1 zy_777
通过一个星期的简单学习，初步了解了下unity，unity的使用，以及场景的布局，UI，以及用C#做一些简单的逻辑。好记性不如烂笔头，一些关键帧还是记起来比较好，哈哈，不然可能转瞬即逝了，（PS:纯小白观点，unity大神可以直接忽略了）一：MonoBehaviour类的初始化1，Instantiate()创建GameObject2，通过Awake()和Start()来做初始化3，Update、L
【Jupyter】个人开发常见命令 TIM老师 #Pycharm &VSCode python Jupyter
1.查看python版本importsysprint(sys.version)2.ipynb/py文件转换jupyternbconvert--topythonmy_file.ipynbipynb转换为mdjupyternbconvert--tomdmy_file.ipynbipynb转为htmljupyternbconvert--tohtmlmy_file.ipynbipython转换为pdfju
AI 生成虚拟宠物：24 小时陪你聊天解闷大力出奇迹985 人工智能宠物
本文围绕AI生成虚拟宠物展开，介绍这类依托人工智能技术诞生的虚拟伙伴，能实现24小时不间断陪伴聊天，为人们解闷。文中详细阐述其技术基础，包括自然语言处理、机器学习等；分析多样功能，如个性化互动、情绪回应等；探讨在独居人群、压力大者等不同群体中的应用场景，最后总结其为人们生活带来的积极影响及未来发展潜力，展现AI虚拟宠物在陪伴领域的独特价值。一、AI生成虚拟宠物的诞生背景与技术基石在快节奏的现代社会
用 Python 开发小游戏：零基础也能做出《贪吃蛇》
本文专为零基础学习者打造，详细介绍如何用Python开发经典小游戏《贪吃蛇》。无需复杂编程知识，从环境搭建到代码编写、功能实现，逐步讲解核心逻辑与操作。涵盖Pygame库的基础运用、游戏界面设计、蛇的移动与食物生成规则等，让新手能按步骤完成开发，同时融入SEO优化要点，帮助读者轻松入门Python游戏开发，体验从0到1做出游戏的乐趣。一、为什么选择用Python开发《贪吃蛇》对于零基础学习者来说，
基于Python的AI健康助手：开发与部署全攻略 AI算力网络与通信 AI算力网络与通信原理 AI人工智能大数据架构 python 人工智能开发语言 ai
基于Python的AI健康助手：开发与部署全攻略关键词：Python、AI健康助手、机器学习、自然语言处理、Flask、部署、健康管理摘要：本文将详细介绍如何使用Python开发一个AI健康助手，从需求分析、技术选型到核心功能实现，再到最终部署上线的完整过程。我们将使用自然语言处理技术理解用户健康咨询，通过机器学习模型提供个性化建议，并展示如何用Flask框架构建Web应用接口。文章包含大量实际代
GPT-4 在 AIGC 中的微调技巧：让模型更懂你的需求 AIGC应用创新大全 AI人工智能与大数据应用开发 MCP&Agent 云算力网络 AIGC ai
GPT-4在AIGC中的微调技巧：让模型更懂你的需求关键词：GPT-4、AIGC、模型微调、监督学习、指令优化、过拟合预防、个性化生成摘要：AIGC（人工智能生成内容）正在重塑内容创作行业，但通用的GPT-4模型可能无法精准匹配你的垂直需求——比如写电商爆款文案时总“跑题”，或生成技术文档时专业术语不够。本文将用“教小朋友学画画”的通俗类比，从微调的底层逻辑讲到实战技巧，带你掌握让GPT-4“更懂
AIGC内容生成实战：如何用ChatGPT+DALL·E打造高转化内容 AI大模型应用工坊 AI大模型开发实战 AIGC chatgpt ai
AIGC内容生成实战：如何用ChatGPT+DALL·E打造高转化内容关键词：AIGC、ChatGPT、DALL·E、内容生成、高转化营销、多模态协同、提示词工程摘要：随着AIGC（人工智能生成内容）技术的爆发式发展，ChatGPT（文本生成）与DALL·E（图像生成）的组合已成为内容创作领域的“黄金搭档”。本文将深度解析二者的协同原理，结合实战案例演示从需求分析到内容落地的全流程，并揭示提升内容
数据分析领域中AI人工智能的发展前景展望 AI大模型应用工坊 AI大模型开发实战数据分析人工智能数据挖掘 ai
数据分析领域中AI人工智能的发展前景展望关键词：数据分析、人工智能、机器学习、深度学习、数据挖掘、预测分析、自动化摘要：本文深入探讨了人工智能在数据分析领域的发展现状和未来趋势。我们将从核心技术原理出发，分析AI如何改变传统数据分析范式，详细讲解机器学习算法在数据分析中的应用，并通过实际案例展示AI驱动的数据分析解决方案。文章还将探讨行业应用场景、工具生态以及未来发展面临的挑战和机遇，为数据分析师
AI人工智能中的数据挖掘：提升智能决策能力
AI人工智能中的数据挖掘：提升智能决策能力关键词：数据挖掘、人工智能、机器学习、智能决策、数据分析、特征工程、模型优化摘要：本文深入探讨了数据挖掘在人工智能领域中的核心作用，重点分析了如何通过数据挖掘技术提升智能决策能力。文章从基础概念出发，详细介绍了数据挖掘的关键算法、数学模型和实际应用场景，并通过Python代码示例展示了数据挖掘的全流程。最后，文章展望了数据挖掘技术的未来发展趋势和面临的挑战
lesson20：Python函数的标注你的电影很有趣 python 开发语言
目录引言：为什么函数标注是现代Python开发的必备技能一、函数标注的基础语法1.1参数与返回值标注1.2支持的标注类型1.3Python3.9+的重大改进：标准集合泛型二、高级标注技巧与最佳实践2.1复杂参数结构标注2.2函数类型与回调标注2.3变量注解与类型别名三、静态类型检查工具应用3.1mypy：最流行的类型检查器3.2Pyright与IDE集成3.3运行时类型验证四、函数标注的工程价值与
Jupyter Notebook：数据科学的“瑞士军刀” a小胡哦机器学习基础人工智能机器学习
在数据科学的世界里，JupyterNotebook是一个不可或缺的工具，它就像是数据科学家手中的“瑞士军刀”，功能强大且灵活多变。今天，就让我们一起深入了解这个神奇的工具。一、JupyterNotebook是什么？JupyterNotebook是一个开源的Web应用程序，它允许你创建和共享包含实时代码、方程、可视化和解释性文本的文档。它支持多种编程语言，其中Python是最常用的语言之一。Jupy
大数据技术笔记—spring入门卿卿老祖
篇一spring介绍spring.io官网快速开始Aop面向切面编程，可以任何位置，并且可以细致到方法上连接框架与框架Spring就是IOCAOP思想有效的组织中间层对象一般都是切入service层spring组成前后端分离已学方式，前后台未分离：Spring的远程通信：明日更新创建第一个spring项目来源：科多大数据
Enum用法不懂事的小屁孩 enum
以前的时候知道enum，但是真心不怎么用，在实际开发中，经常会用到以下代码: protected final static String XJ = "XJ"; protected final static String YHK = "YHK"; protected final static String PQ = "PQ";
【Spark九十七】RDD API之aggregateByKey bit1129 spark
1. aggregateByKey的运行机制 /** * Aggregate the values of each key, using given combine functions and a neutral "zero value". * This function can return a different result type
hive创建表是报错： Specified key was too long; max key length is 767 bytes daizj hive
今天在hive客户端创建表时报错，具体操作如下 hive> create table test2(id string); FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException(message:javax.jdo.JDODataSto
Map 与 JavaBean之间的转换周凡杨 java 自省转换反射
最近项目里需要一个工具类，它的功能是传入一个Map后可以返回一个JavaBean对象。很喜欢写这样的Java服务，首先我想到的是要通过Java 的反射去实现匿名类的方法调用，这样才可以把Map里的值set 到JavaBean里。其实这里用Java的自省会更方便，下面两个方法就是一个通过反射，一个通过自省来实现本功能。 1：JavaBean类 1 &nb
java连接ftp下载 g21121 java
有的时候需要用到java连接ftp服务器下载，上传一些操作，下面写了一个小例子。 /** ftp服务器地址 */ private String ftpHost; /** ftp服务器用户名 */ private String ftpName; /** ftp服务器密码 */ private String ftpPass; /** ftp根目录 */ private String f
web报表工具FineReport使用中遇到的常见报错及解决办法（二）老A不折腾 finereport web报表 java报表总结
抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、没有返回数据集：在存储过程中的操作语句之前加上set nocount on 或者在数据集exec调用存储过程的前面加上这句。当S
linux 系统cpu 内存等信息查看墙头上一根草 cpu 内存 liunx
1 查看CPU 　　1.1 查看CPU个数　　# cat /proc/cpuinfo | grep "physical id" | uniq | wc -l 　　2 　　**uniq命令：删除重复行;wc –l命令：统计行数** 　　1.2 查看CPU核数　　# cat /proc/cpuinfo | grep "cpu cores" | u
Spring中的AOP aijuans spring AOP
Spring中的AOP Written by Tony Jiang @ 2012-1-18 （转）何为AOP AOP，面向切面编程。在不改动代码的前提下，灵活的在现有代码的执行顺序前后，添加进新规机能。来一个简单的Sample: 目标类： [java] view plain copy print ? package&nb
placeholder(HTML 5) IE 兼容插件 alxw4616 JavaScript jquery jQuery插件
placeholder 这个属性被越来越频繁的使用. 但为做HTML 5 特性IE没能实现这东西. 以下的jQuery插件就是用来在IE上实现该属性的. /** * [placeholder(HTML 5) IE 实现.IE9以下通过测试.] * v 1.0 by oTwo 2014年7月31日 11:45:29 */ $.fn.placeholder = function
Object类,值域,泛型等总结(适合有基础的人看) 百合不是茶泛型的继承和通配符变量的值域 Object类转换
java的作用域在编程的时候经常会遇到,而我经常会搞不清楚这个问题,所以在家的这几天回忆一下过去不知道的每个小知识点变量的值域; package 基础; /** * 作用域的范围 * * @author Administrator * */ public class zuoyongyu { public static vo
JDK1.5 Condition接口 bijian1013 java thread Condition java多线程
Condition 将 Object 监视器方法（wait、notify和 notifyAll）分解成截然不同的对象，以便通过将这些对象与任意 Lock 实现组合使用，为每个对象提供多个等待 set （wait-set）。其中，Lock 替代了 synchronized 方法和语句的使用，Condition 替代了 Object 监视器方法的使用。条件（也称为条件队列或条件变量）为线程提供了一
开源中国OSC源创会记录 bijian1013 hadoop spark MemSQL
一.Strata+Hadoop World（SHW）大会是全世界最大的大数据大会之一。SHW大会为各种技术提供了深度交流的机会，还会看到最领先的大数据技术、最广泛的应用场景、最有趣的用例教学以及最全面的大数据行业和趋势探讨。二.Hadoop &nbs
【Java范型七】范型消除 bit1129 java
范型是Java1.5引入的语言特性，它是编译时的一个语法现象，也就是说，对于一个类，不管是范型类还是非范型类，编译得到的字节码是一样的，差别仅在于通过范型这种语法来进行编译时的类型检查，在运行时是没有范型或者类型参数这个说法的。范型跟反射刚好相反，反射是一种运行时行为，所以编译时不能访问的变量或者方法(比如private)，在运行时通过反射是可以访问的，也就是说，可见性也是一种编译时的行为，在
【Spark九十四】spark-sql工具的使用 bit1129 spark
spark-sql是Spark bin目录下的一个可执行脚本，它的目的是通过这个脚本执行Hive的命令，即原来通过 hive>输入的指令可以通过spark-sql>输入的指令来完成。 spark-sql可以使用内置的Hive metadata-store，也可以使用已经独立安装的Hive的metadata store 关于Hive build into Spark
js做的各种倒计时 ronin47 js 倒计时
第一种：精确到秒的javascript倒计时代码 HTML代码: <form name="form1"> <div align="center" align="middle"
java-37.有n 个长为m+1 的字符串，如果某个字符串的最后m 个字符与某个字符串的前m 个字符匹配，则两个字符串可以联接 bylijinnan java
public class MaxCatenate { /* * Q.37 有n 个长为m+1 的字符串，如果某个字符串的最后m 个字符与某个字符串的前m 个字符匹配，则两个字符串可以联接， * 问这n 个字符串最多可以连成一个多长的字符串，如果出现循环，则返回错误。 */ public static void main(String[] args){
mongoDB安装开窍的石头 mongodb安装基本操作
mongoDB的安装 1:mongoDB下载 https://www.mongodb.org/downloads 2:下载mongoDB下载后解压
[开源项目]引擎的关键意义 comsci 开源项目
一个系统，最核心的东西就是引擎。。。。。而要设计和制造出引擎，最关键的是要坚持。。。。。。现在最先进的引擎技术，也是从莱特兄弟那里出现的，但是中间一直没有断过研发的
软件度量的一些方法 cuiyadll 方法
软件度量的一些方法http://cuiyingfeng.blog.51cto.com/43841/6775/在前面我们已介绍了组成软件度量的几个方面。在这里我们将先给出关于这几个方面的一个纲要介绍。在后面我们还会作进一步具体的阐述。当我们不从高层次的概念级来看软件度量及其目标的时候，我们很容易把这些活动看成是不同而且毫不相干的。我们现在希望表明他们是怎样恰如其分地嵌入我们的框架的。也就是我们度量的
XSD中的targetNameSpace解释 darrenzhu xml namespace xsd targetnamespace
参考链接: http://blog.csdn.net/colin1014/article/details/357694 xsd文件中定义了一个targetNameSpace后，其内部定义的元素，属性，类型等都属于该targetNameSpace,其自身或外部xsd文件使用这些元素，属性等都必须从定义的targetNameSpace中找：例如：以下xsd文件，就出现了该错误，即便是在一
什么是RAID0、RAID1、RAID0+1、RAID5，等磁盘阵列模式? dcj3sjt126com raid
RAID 1又称为Mirror或Mirroring，它的宗旨是最大限度的保证用户数据的可用性和可修复性。 RAID 1的操作方式是把用户写入硬盘的数据百分之百地自动复制到另外一个硬盘上。由于对存储的数据进行百分之百的备份，在所有RAID级别中，RAID 1提供最高的数据安全保障。同样，由于数据的百分之百备份，备份数据占了总存储空间的一半，因而，Mirror的磁盘空间利用率低，存储成本高。 Mir
yii2 restful web服务快速入门 dcj3sjt126com PHP yii2
快速入门 Yii 提供了一整套用来简化实现 RESTful 风格的 Web Service 服务的 API。特别是，Yii 支持以下关于 RESTful 风格的 API：支持 Active Record 类的通用API的快速原型涉及的响应格式（在默认情况下支持 JSON 和 XML) 支持可选输出字段的定制对象序列化适当的格式的数据采集和验证错误
MongoDB查询(3)——内嵌文档查询（七） eksliang MongoDB查询内嵌文档 MongoDB查询内嵌数组
MongoDB查询内嵌文档转载请出自出处：http://eksliang.iteye.com/blog/2177301 一、概述有两种方法可以查询内嵌文档：查询整个文档；针对键值对进行查询。这两种方式是不同的，下面我通过例子进行分别说明。二、查询整个文档例如:有如下文档 db.emp.insert({ &qu
android4.4从系统图库无法加载图片的问题 gundumw100 android
典型的使用场景就是要设置一个头像，头像需要从系统图库或者拍照获得，在android4.4之前，我用的代码没问题，但是今天使用android4.4的时候突然发现不灵了。baidu了一圈，终于解决了。下面是解决方案： private String[] items = new String[] { "图库","拍照" }; /* 头像名称 */
网页特效大全 jQuery等 ini JavaScript jquery css html5 ini
HTML5和CSS3知识和特效 asp.net ajax jquery实例分享一个下雪的特效 jQuery倾斜的动画导航菜单选美大赛示例你会选谁 jQuery实现HTML5时钟功能强大的滚动播放插件JQ-Slide 万圣节快乐！！！向上弹出菜单jQuery插件 htm5视差动画 jquery将列表倒转顺序推荐一个jQuery分页插件 jquery animate
swift objc_setAssociatedObject block(version1.2 xcode6.4) 啸笑天 version
import UIKit class LSObjectWrapper: NSObject { let value: ((barButton: UIButton?) -> Void)? init(value: (barButton: UIButton?) -> Void) { self.value = value
Aegis 默认的 Xfire 绑定方式，将 XML 映射为 POJO MagicMa_007 java POJO xml Aegis xfire
Aegis 是一个默认的 Xfire 绑定方式，它将 XML 映射为 POJO, 支持代码先行的开发.你开发服务类与 POJO,它为你生成 XML schema/wsdl XML 和注解映射概览默认情况下，你的 POJO 类被是基于他们的名字与命名空间被序列化。如果
js get max value in (json) Array qiaolevip 每天进步一点点学习永无止境 max 纵观千象
// Max value in Array var arr = [1,2,3,5,3,2];Math.max.apply(null, arr); // 5 // Max value in Jaon Array var arr = [{"x":"8/11/2009","y":0.026572007},{"x"
XMLhttpRequest 请求 XML,JSON ,POJO 数据 Luob. POJO json Ajax xml XMLhttpREquest
在使用XMlhttpRequest对象发送请求和响应之前，必须首先使用javaScript对象创建一个XMLHttpRquest对象。 var xmlhttp； function getXMLHttpRequest(){ if(window.ActiveXObject){ xmlhttp:new ActiveXObject("Microsoft.XMLHTTP
jquery wuai jquery
以下防止文档在完全加载之前运行Jquery代码，否则会出现试图隐藏一个不存在的元素、获得未完全加载的图像的大小等等 $(document).ready(function(){ jquery代码; }); <script type="text/javascript" src="c:/scripts/jquery-1.4.2.min.js&quo

Pytorch：模型的权值初始化与损失函数

目录

前期回顾

一、权值初始化

1.1 梯度消失与梯度爆炸

1.2 Xavier初始化

1.3 Kaiming初始化

1.4 十种权重初始化方法

二、损失函数

2.1 损失函数初步介绍

2.2 交叉熵损失CrossEntropyLoss

nn.CrossEntropyLoss

2.3 剩余的17种损失函数介绍

（1）nn.NLLLoss

（2）nn.BCELoss

（3）nn.BCEWithLogists Loss

（4）nn.L1Loss

（5）nn.MSELoss

（6）nn.SmoothL1Loss

（7）nn.PoissonNLLLoss

（8）nn.KLDivLoss

（9）nn.MarginRankingLoss

（11）nn.SoftMarginLoss

（12）nn.MultiLabelSortMarginLoss

（13）nn.MultiMarginLoss（hingLoss）

（14）nn.TripletMarginLoss

（15）nn.HingeEmbeddingLoss

三、总结

参考博客

你可能感兴趣的:(笔记,pytorch,人工智能,python)