ST-Naive

Vision Transformer及其变体（自用）

0 回顾Transformer

0.1 encoder

在正式开始ViT之前，先来复习一遍transformer的核心机制
相关的文章有很多，我选了一遍最通俗易懂的放在这：Transformer通俗笔记：从Word2Vec、Seq2Seq逐步理解到GPT、BERT
所谓注意力机制，就是Attention = ∑similarity(Query, Key)* Value，Q可以理解为单词在当前的表示，K为单词的标签，V为单词的实际表示
自注意力机制的运行过程
- 从每个编码器输入向量生成三个向量，即查询向量（query-vec）、键向量（key-vec）、值向量（value-vec），生成方法就是输入序列的每个向量分别乘以训练出来的权重矩阵，各自创建一个查询向量、一个键向量和一个值向量。
- 通过每个向量的query和所有向量的key的乘积，计算attention分值。这个分决定着编码该向量时(某个固定位置时)，应该对其他位置上的单词各自给予多少关注度。（所以，attention分数也是向量）
- 接下来，是把attention分数除以key向量维数的平方根（使梯度更稳定），再softmax（归一化），得到的分数决定着编码该向量时(某个固定位置时)，应该对包括它自己的其他位置上的单词各自给予多少关注度。（softmax也是向量，维度与attention分数相同）
- 最后，将softmax的各个维度上的值乘以各自对应的value向量，再求和
而所谓多头注意力，就是指权重矩阵不止一组，而是很多组，每组对应一个注意力头。它们表示了关注点的不同，总有一个头的关注点在我们想关注的地方。
当然，最后还会把所有头拼接起来，乘一个联合训练的大矩阵，得到融合了所有头的信息的矩阵，将其送往前馈神经网络（两个线性变换+一个激活函数）。

0.2 decoder

decoder带有两个注意力层。一个是带掩码（mask）的多头注意力层，只允许关注已输出位置的信息（未输出位置的信息在softmax之前被置为负数，之后变为0，相当于屏蔽了未输出位置）。说白了，答案不能一下子全都告诉你，不然你就抄袭了。所以是你每进行一次，就把答案漏出来一点，直到把答案全都露出来。
另一个是Encoder-Decoder Attention，Q来源于上一个的Decoder输出，K，V均来自Encoder最后一层的的输出。也就是说，将翻译出来的词当作Q，原句里的词当作K，V，计算的是你好与“hello,world”的相似度。
需要注意的是，因为当时resnet已经出了，所以encoder和decoder都有残差连接+归一化的结构，最后跟一个全连接层和softmax层。

1 Vision Transformer

ViT的出现证明了，不止CNN可以处理图像分类任务，单纯的transformer架构也同样可以
所以2021-2022这一区间，在3D检测领域的多数模型选择拥抱了transformer

1.1 简介

将图像拆分为patches，并提供这些patches的线性embedding序列作为transformer的输入
采用有监督的方式对模型进行训练
transformer很吃数据量，在百万甚至千万级别以上的数据集训练下，ViT的训练效果才会超过传统CNN。
- 数据集的数量决定着模型的泛化性

1.2 相关工作

Transformer：用于机器翻译的方法，被广泛用于NLP领域
BERT：使用去噪自我监督的训练前任务
局部多头点积自我注意块：只在每个查询像素的局部社区中应用自注意力，可以完全取代卷积
稀疏Transformer：采用了对全局自关注的可扩展近似，以便适用于图像
在不同大小的块中应用：在极端情况下，只沿着个别轴线应用
iGPT：无监督的方式，在降低图像分辨率和色彩空间后将Transformers应用于图像像素

1.3 方法

1.3.1 ViT的过程

将图形转化为序列化数据
- 以ViT-B/16为例，首先输入一张224×224×3的图片，将其按照16×16的patch划分，得到196个patch
- 将每个patch线性映射到一维向量中，形成一个长度为16×16×3=768的一维向量
- 最后将这196个patch重组，得到一个196×768的二维矩阵
- 不过实际操作其实就是用一个核为16，步长为16的卷积来实现
位置信息的嵌入
- 与transformer中的Positional Encoding类似，我们需要给每个patch标注位置信息
- 对于Position Embedding作者也有做一系列对比试验，在源码中默认使用的是1D Pos. Emb（一个可训练的参数），对比不使用Position Embedding准确率提升了大概3个点，和2D Pos. Emb.比起来没太大差别。
图像信息的嵌入
- 除了图像的位置信息，图像信息也会被加入其中，经过Linear Projection of Flattened Patches得到一个token向量
- 另外，原作者参考bert，在序列的最前面加上了一个class token。该token属于可训练参数，与其他token的格式相同，专门用于分类。
- 所以，最后输入进的shape为197×768
transformer encoder详解
- 内部结构其实很简单，就是将encoder block重复堆叠L次
- layer norm—对每个token做归一化处理
- Multi-Head Attention—多头注意力机制，前面复习过
- dropout—原论文是dropout，不过droppath效果更好
- MLP—全连接+GELU激活函数+Dropout
MLP Head
- 由于我们最后需要的仅仅只是分类信息，所以需要一个全连接层把class token提取出来。这个全连接层就是MLP Head

1.3.2 分辨率调整

问题：当处理更高分辨率的图像时，patch数增加，位置发生变化，预训练的position embeding无法发挥作用
解决方法：根据预训练的position embeding在原始图像的位置进行二维插值

1.4 总结

与当时的SOTA相比，ViT的计算量无疑是更小的，且在大数据集的加持下精度更高
作者还尝试了根CNN结合的方式，不过后续还会介绍，这里就先不提了
另外，模仿BERT，似乎自监督训练也可作为一个发展方向
总的来说，ViT开创了图像分割重组为序列的新模式，且潜力巨大

2 DeiT

2.1 知识蒸馏

这个概念其实并不新奇，早在2015年便被提出，并应用到其他一些算法当中（比如说上一篇的yolov6）
Knowledge Distillation，简称KD，顾名思义，就是将已经训练好的模型包含的知识(Knowledge)，蒸馏(Distill)提取到另一个模型里面去
简而言之，就是模型压缩的一种方法，是一种基于“教师-学生网络思想”的训练方法

2.1.1 理论基础

一些名词
- Teacher：大而笨重的模型
- Student：小而紧凑的模型
- transfer set：用于小模型训练的数据，也是获得Teacher模型soft target输出的输入数据集
- hard target：样本原始标签
- soft target：Teacher模型输出的预测结果
- temperature：softmax函数中的超参数
- knowledge：可以理解为从输入向量到输出向量学习到的映射
- Logits：各个类别的分值汇总，在softmax后为概率分布
学习模式
- 需要注意的是，这里蒸馏的目的是小网络的概率分布趋近于大网络，而非单纯的正确率趋近于大网络
- 换句话说，小网络最后的输出，不只是正确率趋近于大网络，而是输出的概率分布，即softmax（Logits）也要趋同

2.1.2 分类

知识蒸馏是对模型的能力进行迁移，根据迁移的方法不同可以简单分为基于目标蒸馏（也称为Soft-target蒸馏或Logits方法蒸馏）和基于特征蒸馏的算法两个大的方向
目标蒸馏
- 使用大网络softmax层输出的类别的概率分布来作为“Soft-target” ，辅助Hard-target（标签）训练小网络
- 这是因为，在Soft-target的概率分布中，也包含着teacher模型归纳推理的信息
- 具体表现就是，使用 Soft-target 训练时，梯度的方差会更小，训练时可以使用更大的学习率，所需要的样本也更少
- 温度：对softmax函数引入温度变量后，负标签携带的信息被放大，有利于模型更加关注负标签
  - 当T=1时，就是标准的softmax，随着T增大，分布熵随之拉大，分布更加平缓
  - 高温蒸馏过程的目标函数由distill loss(对应Soft-target)和Student loss(对应Hard-target)加权得到
特征蒸馏
- 它不像Logits方法那样，Student只学习Teacher的Logits这种结果知识，而是学习Teacher网络结构中的中间层特征
- 第一阶段：首先选择待蒸馏的中间层（即Teacher的Hint layer和Student的Guided layer）。由于两者的输出尺寸可能不同，因此，在Guided layer后另外接一层卷积层，使得输出尺寸与Teacher的Hint layer匹配。接着通过知识蒸馏的方式训练Student网络的Guided layer，使得Student网络的中间层学习Teacher的Hint layer的输出。
- 第二阶段：在训练好Guided layer之后，将当前的参数作为网络的初始参数，利用知识蒸馏的方式训练Student网络的所有层参数，使Student学习Teacher的输出。

2.2 DeiT模型

其实非常简单，光看图就能看得很明白

这里面的class token和distillation token其实就是学生和老师两部分，前者对应Hard-target，后者对应Soft-target
当然，这里面的蒸馏还分为了软蒸馏和硬蒸馏
- 硬蒸馏就是真实标签与老师的软标签各占一半的权重，然后计算loss
- 软蒸馏则是利用了分歧最小化（Kullback-Leibler散度损失），并引入了温度

2.3 总结

本来以为会很难，但实际的内容就这么一点点【乐】
DeiT最大的贡献是减少了对数据的需求量，仅使用ImageNet（ViT的数据量要多得多），在 53 hours train，20 hours finetune 的前提下达到了在当时 84.2% top-1的准确性，又快又准了属于是。
但这只是针对数据要求的改进，关于ViT的改进思路不止这一种，比如说针对计算量大而改进的Twins和Swin Transformer

3 swin transformer

3.1 简介

当前存在的问题
- 与语言不同，固定尺度的token并不适用于视觉元素
- 对于高分辨率图像，预测密集，计算复杂度过高
解决方案
- 采用层次化(hierarchical)特征图，即从小尺寸patch开始，逐渐在更深的层中合并相邻patch，如下图：

通过构建层次化结构，使得相关算法得以引入（如FPN、U-Net等），同时解决了密集预测的问题
SwinT的另一个关键元素，在于对窗口（window）的设计。在下采样的过程中，把它们划分成若干个window，而多头自注意力机制只针对window，即q、k、v只在局部窗口共享，而非全图

3.2 框架

算法步骤
- Patch Partition模块主要负责分块，将每张图分为H/4 × W/4块，每块是4×4的图像，展平后再乘通道数即为48。可见其二维矩阵的生成方法与ViT无异，只不过切的块更小了（VIT是16×16）
- Linear Embedding（全连接嵌入）则会将原张量投射到任意维度，即H/4 × W/4 × C
  - 不过从源码上看，前两步合在一起就是一个卷积层
- 接下来是4个stage，即4个swin transformer叠加。有意思的是，这里面的swin模块有两种结构，W-MSA和SW-MSA，且二者成对地交替使用，所以stage是偶数
- Patch Merging代表下采样，除了第一个stage外，每过一个stage都要下采样
- 最后还会跟一个归一化+全局池化+全连接，一套丝滑小连招输出结果（图里没写，代码里有）

3.3 Swin Transformer Block

带窗的多头自注意力（W-MSA）与不带窗的（MSA）计算量差了很多，因为MSA每次算attention时要把全局的都带上，而W-MSA就只带了窗内的哥们一起玩。具体公式如下：
哈哈，从这里也能看出，面对高分辨率图像，还是CNN管用。怪不得那篇论文叫做《attention is all you need》，合着就只有attention是need的，其他的都可以不要是吧？
其实目前来看，似乎CNN+ViT才是正解。先由CNN浅层提取特征，再交给ViT做后处理
另外还有一个Shifted Windows Multi-Head Self-Attention（SW-MSA）模块，如下图所示

与普通的滑动窗口相比，SW打破了窗口之间的界限，解决了不同窗口之间信息交互的问题
另外，这里还涉及到了一个循环移位的方法

那么移位之后，如何解决原本不相邻的两个窗之间的交互问题呢？这里又用到了mask机制。
具体来说，如果相互交互的patch属于同一个区域，那么就可以正常交互，如果不是同一个区域，那么他们交互之后就需要加上一个很大的负值，这样通过softmax层之后本来不能交互的那个像素就变成0了。

3.4 Patch Merging

下采样的过程根yolov2里提取细粒度特征的形式很类似

也就是说，并不是简单的1切4，而是从每个里面都各取一块，组成一个大的
这里其实就是CNN里提高感受野的方法了，维度减半，通道加倍

3.5 总结

跟PVT（Pyramid Vision Transformer）类似，SwinT同样引入了金字塔结构，并引入了窗的结构。
在SwinT的基础上，同样有很多改进型，比如说将相对位置编码改为绝对位置编码的twins，这里就不详细说了。

4 MobileViT

4.1 MobileViT v1

首先还是大致看一下总体的框架
从框架不难发现，它主要是由普通卷积，MV2，MobileViT block以及全局池化和全连接层组成

4.1.1 MV2

所谓MV2，指的是步长为1的MobileNetV2
MobileNetV2 = 深度可分离卷积+先升维+倒残差+低维不使用ReLU

深度可分离卷积
- 包含两个过程，分别是逐通道卷积（Depthwise Conv）和逐点卷积（Pointwise Conv）
- 逐通道卷积：每个通道都只能被一个卷积核卷积（特征图通道数与输入通道数一致）
- 逐点卷积：将上一步的map在深度方向上进行加权组合，生成新的特征图。这与常规的卷积类似
在深度可分离卷积的基础上，先升维，再降维

4.1.2 MobileViT block

先将特征图输入卷积核大小为n×n的卷积层进行局部特征的提取，然后过一个1×1的卷积调整通道数
那好了，该如何理解unfold与fold呢？我把图放上来，你立马就能懂了
哈哈，没错，又是熟悉的味道，还是先取上下左右，各取各的，然后每种颜色之间做attention
没错，就是这么简单的一个操作，把计算量给拉下来了
考虑到这是2022年的文章，已经出现了SwinT，所以并没什么新奇之处

4.2 MobileViT v3

唉？你问我为啥没有v2。。。因为太无聊了，直接跳过了
总结：MobileNet V3 = MobileNet v2 + SE结构 + hard-swish activation +网络结构头尾微调

4.2.1 简介

主要工作
- MobileNet V3通过结合NetAdapt算法辅助的硬件NAS和新颖的架构来优化到移动端的CPU上
- 本文创建了两个新的MobileNet模型，应用于对象检测和语义分割的任务
  - MobileNetV3-Large
  - MobileNetV3-Small
- 分割任务中提出了一种高效的轻量级空间金字塔池化策略Lite Reduced ASPP
- 与MobileNetV2相比，MobileNetV3准确率更高，速度更快
相关工作
- 基于轻量化网络设计：比如 MobileNet 系列，ShuffleNet系列，Xception等，使用Group卷积，1*1 卷积等技术减少网络计算量的同时，尽可能的保证网络的精度。
- 模型剪枝：大网络往往存在一定的冗余，通过减去冗余部分，减少网络计算量。
- 量化：利用 TensorRT 量化，一般在 GPU 上可以提速几倍
- 知识蒸馏：利用大模型（teacher model）来帮助小模型（student model）学习，提高 student model的精度。

4.2.2 端到端的架构

MobileViTV3模块
- 在融合块中用1x1卷积层替换3x3卷积层
  - 融合局部和全局特征，独立于特征图中的其他位置，以简化融合块的学习任务
  - 消除MobileViTv1架构扩展中的主要限制之一，避免了缩放时参数和FLOP的大幅增加
- 局部和全局特征融合
  - 将局部表征模块和全局表征模块
  - 局部表征模块特征与全局表征模块特征更紧密相关
  - 局部表征块的输出通道略高于输入端的通道
- 融合输入端特征
  - 输入特征被添加到融合块中的1x1卷积层的输出
  - 启发：ResNet和DenseNet等模型中的剩余连接已被证明有助于优化架构中的更深层
- 局部表征块中使用深度卷积层
  - 方法：局部表征块中的3x3卷积层被深度3x3卷积层替换
  - 目的：进一步减少参数
模型构建块
- 允许通过增加层的宽度（通道数量）来扩展MobileViTv 3架构。表中为MobileViTv 3-S、XS和XXS架构，其每层中具有输出通道、缩放因子、参数和FLOP

4.2.3 模型表现

200万参数下的模型：MobileViTv 3-XXS和MobileViTv 3 -0.5的性能优于其他MobileViT变体
2-4百万参数之间的模型：MobileViTv 3-XS和MobileViTv 3 -0.75的性能优于该系列的所有型号
4-8百万参数之间的模型：MobileViTv 3-S在此参数范围内达到最高精度
超过800万个参数的模型：MobileViTv 3-S参数量小，精确度高

5 DETR

5.1 整体框架

5.1.1 resnet50

detr的主干网络使用的是我们熟悉的resnet系列，之前没有系统讲过，正好借此机会复习一下
Conv Block
- 如图所示，conv block的残差边存在卷积，可以用来调整输出的大小
- 也就是说，conv block的输入输出不同，可以改变网络维度，但不能串联
Identity Block
- 残差变不带conv，输入输出相同，主要起加深网络的作用，可串联

resnet50总体结构

input(3,800,800)
zeropad
Conv2d stride=2(64,400,400)
BatchNorm
ReLU
MaxPool stride=2(64,200,200)
Conv Block(256,200,200)
Identity Block(256,200,200)
Identity Block(256,200,200)
Conv Block stride=2(512,100,100)
Identity Block(512,100,100)
Identity Block(512,100,100)
Identity Block(512,100,100)
Conv Block stride=2(1024,50,50)
Identity Block(1024,50,50)
Identity Block(1024,50,50)
Identity Block(1024,50,50)
Identity Block(1024,50,50)
Identity Block(1024,50,50)
Conv Block stride=2(2048,25,25)
Identity Block(2048,25,25)
Identity Block(2048,25,25)

5.1.2 encoder

其实DETR并没有采用ViT的结构，它只不过把neck部分换成了transformer
位置编码
- 框架中的positional encoding，其实就是position embedding的思想，为所有特征添加位置信息，使得网络具有区分不同区域的能力
输入序列
- 由于我们最终输出的是25×25×2048，通道数过多，所以要先用1×1的conv将通道维度压缩成256，再对高宽维度进行平铺
- 压缩后得到batch × 625 × 256
所以，这里面encoder的实际作用，其实是对特征序列的加强，而后面的decoder则是扮演分类器的角色

5.1.3 decoder

那么，如何对特征序列进行分类呢？需要用到object queries，一个特殊的可学习的查询向量
实际操作就是，先通过Embedding类创建一个query_embed，作为decoder的positional encodeing
而查询向量本身长度固定，即输入decoder的为l × batch × 256
网络内部部分与transformer大致相同，输出序列同样为l × batch × 256

5.1.4 预测头

源码里最后的预测头其实就两个，一个负责输出分类信息，另一个负责回归框信息
其中，分类信息有class+1个，因为要包含背景
回归框的话用到的是MLP（全连接神经网络/多层感知机），下面着重讲一下这个东西

MLP属于前馈神经网络的一种，由输入层、隐藏层和输出层组成
从源码上看，这三层网络全部为全连接层，中间会有激活函数
MLP最后返回的是中心点坐标以及宽高，所以后面还需要一个解码过程，把值一一取出来
从这以点上看，DETR的预测头其实是基于point的

5.2 训练策略

正样本的匹配过程
- 这里用到的匹配算法叫做匈牙利算法。由于分类的预测结果需要匹配，n个真实框要去匹配n个预测结果，所以需要算法找寻最合适的n值
- 实际做法就是构建一个l×gt的cost矩阵，其中l为预测结果数，gt是真实框数。该矩阵可分为三部分：
  - 计算分类成本。获得预测结果中，该真实框类别对应的预测值，如果预测值越大代表这个预测框预测的越准确，它的成本就越低。
  - 计算预测框和真实框之间的L1成本。获得预测结果中，预测框的坐标，将预测框的坐标和真实框的坐标做一个l1距离，预测的越准，它的成本就越低。
  - 计算预测框和真实框之间的IOU成本。获得预测结果中，预测框的坐标，将预测框的坐标和真实框的坐标做一个IOU距离，预测的越准，它的成本就越低。
loss计算
- Reg部分，由第2部分可知道每个真实框对应的预测框，获取到每个真实框对应的预测框后，利用预测框和真实框计算l1的损失和giou损失。
- Cls部分，由第2部分可知道每个真实框对应的预测框，获取到每个真实框对应的预测框后，取出该预测框的种类预测结果，根据真实框的种类计算交叉熵损失。没有匹配上真实框的预测框作为背景。

写在后面

其实本来就单纯想看看transformer的，没想到看了一堆东西
3D目标检测里，21-22年用transformer当backbone的有很多，看一看其实还是有好处的
感觉毕设如果还是要做故障诊断的话，可以先去借鉴一下多模态的处理方法，主干就选CNN+ViT
算了，多余的话就不说了，要去看R-CNN和centerpoint了

【Python】一文详细介绍 py格式文件高斯小哥 Python基础【高质量合集】python 新手入门学习
【Python】一文详细介绍py格式文件个人主页：高斯小哥高质量专栏：Matplotlib之旅：零基础精通数据可视化、Python基础【高质量合集】、PyTorch零基础入门教程希望得到您的订阅和支持~创作高质量博文(平均质量分92+)，分享更多关于深度学习、PyTorch、Python领域的优质内容！（希望得到您的关注~）文章目录一、py格式文件简介二、如何创建和编辑py格式文件三、如何运行py
大创项目推荐深度学习 opencv python 公式识别(图像识别机器视觉) laafeer python
文章目录0前言1课题说明2效果展示3具体实现4关键代码实现5算法综合效果6最后0前言优质竞赛项目系列，今天要分享的是基于深度学习的数学公式识别算法实现该项目较为新颖，适合作为竞赛课题方向，学长非常推荐！学长这里给一个题目综合评分(每项满分5分)难度系数：3分工作量：4分创新点：4分更多资料,项目分享：https://gitee.com/dancheng-senior/postgraduate1课题
Ai插件脚本合集安装包，免费教程视频网盘分享全网优惠分享君
随着人工智能技术的不断发展，越来越多的插件脚本涌现出来，为我们的生活和工作带来了便利。然而，如何快速、方便地获取和使用这些插件脚本呢？今天，我将为大家分享一个非常实用的资源——AI插件脚本合集安装包，以及免费教程视频网盘分享。首先，让我们来了解一下这个AI插件脚本合集安装包。它是一个集合了众多AI插件脚本的资源包，涵盖了各种领域，如数据分析、自动化办公、智能客服等等。通过这个安装包，用户可以轻松地
过去一年，这16本好书不容错过 m0_54050778 perl
编者按：2023年在动荡与希望中收尾，2023年注定会被载入史册。疫情寒冬结束，ChatGPT横空出世，带动了人工智能技术的飞速发展；淄博烧烤、天津大爷、尔滨之旅等充满感动与幸福。但与此同时，2023年又是动荡与不安的一年，俄乌冲突的延宕，新一轮的巴以冲突，极端天气频发。在这个大环境下，有一些经典的书籍著作诞生。本文将分享2023年最值得一读的16本书籍，文章来自翻译，希望对你有所启示。关于202
python清华大学出版社答案_Python机器学习及实践 weixin_39805119 python清华大学出版社答案
第1章机器学习的基础知识1.1何谓机器学习1.1.1传感器和海量数据1.1.2机器学习的重要性1.1.3机器学习的表现1.1.4机器学习的主要任务1.1.5选择合适的算法1.1.6机器学习程序的步骤1.2综合分类1.3推荐系统和深度学习1.3.1推荐系统1.3.2深度学习1.4何为Python1.4.1使用Python软件的由来1.4.2为什么使用Python1.4.3Python设计定位1.4.
深度学习项目-基于深度学习的股票价格预测研究雅致教育计算机毕业设计深度学习人工智能
概要随着经济的发展，中国股票市场的规模持续扩大，早已成为金融投资的重要部分，掌握股票市场的变化规律无论是对监管者还是投资者都具有极其重要的意义。正因如此，人们不断探索着股票市场的变化规律，其中使用深度学习预测股价是当前国内国际研究与应用的热点。本文首先从有效市场假说和分形市场假说两个角度讨论了中国股票市场的有效性，说明股票市场具有复杂的非线性特征。其次，结合股票市场特征对比了当前的预测方法
ChatGPT技巧大揭秘：AI写代码新境界 2401_83550420 chatgpt4.0 chatgpt chatgpt 人工智能 AI写作
ChatGPT无限次数:点击直达ChatGPT技巧大揭秘：AI写代码新境界随着人工智能技术的不断进步，开发人员现在有了更多有趣的工具来提高他们的工作效率。其中，ChatGPT作为一种基于深度学习的自然语言处理模型，已经成为许多开发者的新宠。在本文中，我们将揭秘使用ChatGPT来帮助编写代码的技巧，探索AI在编程领域的新境界。ChatGPT简介ChatGPT是一种基于大型神经网络的对话生成模型，它
ChatGPT：AI合作伙伴助你成为论文写作高手 2401_83550420 chatgpt chatgpt 人工智能 AI写作
ChatGPT无限次数:点击直达摘要：本文将介绍ChatGPT3.5Turbo（以下简称ChatGPT），一款强大的AI合作伙伴，能够助你成为一名论文写作高手。我们将深入探讨ChatGPT的特点、优势，并提供多个示例，展示ChatGPT在论文写作中的应用。无论是开展研究、撰写论文、还是与ChatGPT进行互动交流，都能够帮助你提升写作效率和质量。引言：随着人工智能的发展，聊天型语言模型在各个领域都
AI大模型学习：开启智能时代的新篇章游向大厂的咸鱼人工智能学习
随着人工智能技术的不断发展，AI大模型已经成为当今领先的技术之一，引领着智能时代的发展。这些大型神经网络模型，如OpenAI的GPT系列、Google的BERT等，在自然语言处理、图像识别、智能推荐等领域展现出了令人瞩目的能力。然而，这些模型的背后是一系列复杂的学习过程，深度学习技术的不断演进推动了AI大模型学习的发展。首先，AI大模型学习的基础是深度学习技术。深度学习是一种模仿人类大脑结构的机器
【Python】成功解决ModuleNotFoundError: No module named ‘torchinfo‘ 高斯小哥 BUG解决方案合集 python pytorch 新手入门学习 debug
【Python】成功解决ModuleNotFoundError:Nomodulenamed‘torchinfo’个人主页：高斯小哥高质量专栏：Matplotlib之旅：零基础精通数据可视化、Python基础【高质量合集】、PyTorch零基础入门教程希望得到您的订阅和支持~创作高质量博文(平均质量分92+)，分享更多关于深度学习、PyTorch、Python领域的优质内容！（希望得到您的关注~）文
大模型的学习 LLaMa和ChatGLM，minichatgpt4 贝猫说python 学习 llama 人工智能
LLaMa和ChatGLM，minichatgpt4什么情况用Bert模型，什么情况用LLaMA、ChatGLM类大模型，咋选？答：Bert的模型由多层双向的Transformer编码器组成，由12层组成，768隐藏单元，12个head，总参数量110M，约1.15亿参数量。NLU（自然语言理解）任务效果很好，单卡GPU可以部署，速度快，V100GPU下1秒能处理2千条以上。ChatGLM-6B,
OpenCV（一个C++人工智能领域重要开源基础库）简介愚梦者 OpenCV 人工智能人工智能 opencv c++图像处理计算机视觉开源
返回：OpenCV系列文章目录（持续更新中......）上一篇：OpenCV4.9.0配置选项参考下一篇：OpenCV4.9.0开源计算机视觉库安装概述引言：OpenCV（全称OpenSourceComputerVisionLibrary）是一个基于开放源代码发行的跨平台计算机视觉库，可以用来进行图像处理、计算机视觉和机器学习等领域的开发。该库由英特尔公司于1999年开始开发，最初是为了加速处理器
ChatGPT：智能论文写作指南，让您成为写作高手 AI臻蚌 chatgpt4.0 chatgpt chatgpt 人工智能 AI写作
ChatGPT无限次数:点击直达写作是学术研究中不可或缺的一环，然而，对于许多人来说，写作往往是一项艰巨而费时的任务。但是，现在有了ChatGPT，您将能够以前所未有的速度和准确性编写高质量的论文。本文将向您介绍如何利用ChatGPT的强大功能成为写作高手，并为您提供一些示例，展示其在不同领域的应用。1.简介ChatGPT是一种基于人工智能的语言模型，它可以理解并生成人类语言。通过训练大量的语料库
ChatGPT神技：AI成为你的编程良友 2401_83481083 chatgpt4.0 chatgpt chatgpt 人工智能 AI写作
ChatGPT无限次数:点击直达ChatGPT神技：AI成为你的编程良友近年来，人工智能技术的发展迅猛，ChatGPT作为其中一项创新技术，正逐渐走进我们的生活。在编程领域，AI不仅可以助力我们提高效率，还能成为我们的良友，帮助解决各种编程难题。一、ChatGPT简介ChatGPT是一种基于自然语言处理技术的人工智能模型，它能够生成类人对话。ChatGPT通过深度学习模型，能够理解输入的文本并生成
数字逻辑不可能涌现出智能 dog250 人工智能
先看一系列竖式乘法的步骤：相乘的两个数数位越大，步骤越多。如果不纠结数制，二进制运算也是这回事，把单个步骤用一个晶体管表达(其实一个步骤不止一个晶体管)，数位越大，所需的晶体管越多。先说结论，所有基于n进制的逻辑运算都不可扩展。硅基时序电路可如此巧妙完成精确计算，开启了数字化时代，人们试图将AI构建在这二进制世界。但若二进制运算不可扩展，基于数字逻辑的人工智能就不可能。前面提到过，二进制运算本质上
深度学习如何入门？科学的N次方深度学习
入门深度学习需要系统性的学习和实践经验积累，以下是一份详细的入门指南，包含了关键的学习步骤和资源：预备知识：•编程基础：熟悉Python编程语言，它是深度学习领域最常用的编程语言。确保掌握变量、条件语句、循环、函数等基本概念，并学习如何使用Python处理数据和文件操作。•数学基础：理解线性代数（矩阵运算、向量空间等）、微积分（导数、梯度求解等）、概率论与统计学（期望、方差、概率分布、最大似然估计
深度学习与（复杂系统）事物的属性科学禅道深度学习模型专栏深度学习人工智能
深度学习与复杂系统中事物属性的关系体现在：特征学习与表示:深度学习通过多层神经网络结构，能够自动从原始输入数据中学习和提取出丰富的特征表示。每一层神经网络都可能对应着事物属性的不同抽象层次，底层可能对应简单直观的属性，而随着网络深度的增加，顶层可以学习到更抽象、复杂的属性及其相互关系。非线性关系建模:深度学习特别擅长处理非线性关系，而在复杂系统中，事物属性间的相互作用往往表现为非线性，例如，某些属
让数据说话：人工智能与六西格玛的完美结合张驰课堂人工智能六西格玛
当人工智能与六西格玛结合，企业可以充分利用人工智能技术的数据处理、预测分析和智能决策支持能力，实现数据驱动的决策、质量控制和流程优化，从而提高企业的效率和竞争力。下面张驰咨询给大家具体的介绍：1、数据驱动决策六西格玛侧重于数据分析和决策制定，而人工智能可以提供更强大的数据处理和分析能力。通过人工智能技术，可以自动收集和整理大量的数据，并进行有效的数据挖掘和模式识别。这些数据分析结果可以为六西格玛项
智合同如何助力建筑行业合同智能化管理智合同（小智）合同智能应用 AI技术降本增效提质人工智能自然语言处理知识图谱深度学习大数据
#建筑行业#人工智能#AI#合同智能应用#深度学习#自然语言处理技术#知识图谱智合同-采用深度学习、自然语言处理技术、知识图谱等人工智能技术，为企业提供专业的合同相关的智能服务。其主要服务包含：合同智能审查、合同要素智能提取、合同版本对比、合同智能起草、ICR智能识别、合同履约追踪、文本一致性对比、广告审查、合同范本库等服务。智合同在助力建筑行业合同智能化管理方面具有显著的优势。首先，智合同利用A
神经网络（深度学习，计算机视觉，得分函数，损失函数，前向传播，反向传播，激活函数） MarkHD 深度学习神经网络计算机视觉
神经网络，特别是深度学习，在计算机视觉等领域有着广泛的应用。以下是关于你提到的几个关键概念的详细解释：神经网络：神经网络是一种模拟人脑神经元结构的计算模型，用于处理复杂的数据和模式识别任务。它由多个神经元（或称为节点）组成，这些神经元通过权重和偏置进行连接，并可以学习调整这些参数以优化性能。深度学习：深度学习是神经网络的一个子领域，主要关注于构建和训练深度神经网络（即具有多个隐藏层的神经网络）。通
AI原生安全亚信安全首个“人工智能安全实用手册”开放阅览亚信安全官方账号安全网络 web安全人工智能大数据
不断涌现的AI技术新应用和大模型技术革新，让我们感叹从没有像今天这样，离人工智能的未来如此之近。追逐AI原生？企业组织基于并利用大模型技术探索和开发AI应用的无限可能，迎接生产与业务模式的全面的革新。我们更应关心AI安全原生。实施人工智能是一项复杂又长远的任务，任何希望利用大模型的组织在设计之初，都必须将安全打入地基，安全一定是AI技术发展的核心要素。针对人工智能和大模型面临的威胁与攻击模式，亚信
开发chrome扩展（禁止指定域名使用插件）徐同保 chrome 前端
mainfest.json:{"manifest_version":3,"name":"ChatGPT学习","version":"0.0.2","description":"ChatGPT,GPT-4,Claude3,Midjourney,StableDiffusion,AI,人工智能,AI","icons":{"16":"./images/logo.png","48":"./images/lo
ai智能语音机器人的出现未来电销行业会如何发展？ VO_794632978 WX-794632978 语音机器人人工智能机器人交互语音识别大数据
人工智能和移动互联网技术的发展，对于很多行业都产生了颠覆性的影响。而对于电销这一重复度较高的行业来说，也是产生了巨大的推动作用。对于传统电销人来说，电销机器人可以帮助你提高销售效率，提高影响客户的能力和转化率，将你过去繁琐简单无效的需要个人做的工作，都交给机器，让你的时间和精力，放在重要的客户和有创造性的事情上。我们一起来看看都有哪些发展。自动化程度提高：AI机器人能够不间断地工作，自动拨打电话、
MATLAB 2023a：强化学习算法的实战演练与性能评估 zmjia111 机器学习 matlab matlab 算法开发语言深度学习机器学习 yolo
在深度学习领域，MATLAB2023版深度学习工具箱以其完整的工具链和高效的运行环境，为研究人员和开发者提供了前所未有的便利。这一工具箱不仅集成了建模、训练和部署的全部功能，更以其简洁易用的语法和强大的算法库，为深度学习任务的快速实现铺平了道路。相较于Python等编程语言，MATLAB的语法更为直观，上手更为迅速。无需繁琐的环境配置和库安装，用户只需打开MATLAB界面，即可轻松开始深度学习之旅
动手学习深度学习——2.5 自动微分 X_Imagine 动手学习深度学习深度学习人工智能自动微分
2.5自动微分正如【2.4微积分】所说，微分是深度学习中几乎所有最优化算法的关键步骤。虽然求这些导数的计算过程很简单，只需要一些基本的微积分知识。但对于复杂的模型，手工计算参数的更新可能很痛苦(而且经常容易出错)。深度学习框架通过自动计算导数加快了这一工作，即自动微分（AutomaticDifferentiation）。在实践中，基于我们设计的模型，系统构建了一个计算图，跟踪哪些数据结合哪些操
生成式AI竞赛：开源还是闭源，谁将主宰未来？新加坡内哥谈技术人工智能
每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/对于一些行业观察家来说，这场战斗似乎还没开始就已结束。当ChatGPT成为有史以来增长最
飞桨科学计算套件PaddleScience skywalk8163 人工智能 paddlepaddle 人工智能飞桨
PaddleScience是一个基于深度学习框架PaddlePaddle开发的科学计算套件，利用深度神经网络的学习能力和PaddlePaddle框架的自动(高阶)微分机制，解决物理、化学、气象等领域的问题。支持物理机理驱动、数据驱动、数理融合三种求解方式，并提供了基础API和详尽文档供用户使用与二次开发。安装当然要先安装好飞桨PaddlePaddle，再安装PaddleSciencepipinst
从政府工作报告探计算机行业发展想你依然心痛个人总结与成长规划行业发展前景
文章目录每日一句正能量前言以“数”谋新、加“数”向实人工智能方面人工智能成核心驱动引擎软件方面通信方面后记每日一句正能量该来的始终会来，千万别太着急，如果你失去了耐心，就会失去更多。该走过的路总是要走过的，从来不要认为你走错了路，哪怕最后转了一个大弯。这条路上你看到的风景总是特属于你自己的，没有人能夺走它。前言2024年的两会是中国政治日历上一次重要的会议，吸引了全球的目光。在这次两会中，计算机行
chatGLM-6B部署报错quantization_kernels_parallel.so‘ (or one of its dependencies). Try using the full pat FL1623863129 环境配置深度学习
用python部署chatglm2时候报错：FileNotFoundError:Couldnotfindmodule'C:\Users\Administrator\.cache\huggingface\modules\transformers_modules\chatglm2-6b-int4\quantization_kernels_parallel.so'(oroneofitsdependenc
ego - 人工智能原生 3D 模拟引擎——基于AI的3D引擎，可以做游戏、空间计算、元宇宙等项目花生糖@ AIGC学习资源人工智能游戏空间计算
1.产品概述：Ego是一款AI本地化的3D模拟引擎，旨在让非技术创作者通过自然语言生成逼真的角色、3D世界和交互式脚本。该平台提供了创建和分享游戏、虚拟世界和交互体验的功能。2.定位：Ego定位于解决开放世界游戏和模拟的三大难题：难以编写游戏脚本、非玩家角色无法展现人类行为以及创建新的3D资产和世界的难度。通过AI技术，Ego致力于让用户可以用自然语言创建复杂的游戏和交互体验。3.创始人背景：创始
对于规范和实现，你会混淆吗？ yangshangchuan HotSpot
昨晚和朋友聊天，喝了点咖啡，由于我经常喝茶，很长时间没喝咖啡了，所以失眠了，于是起床读JVM规范，读完后在朋友圈发了一条信息： JVM Run-Time Data Areas：The Java Virtual Machine defines various run-time data areas that are used during execution of a program. So
android 网络百合不是茶网络
android的网络编程和java的一样没什么好分析的都是一些死的照着写就可以了,所以记录下来方便查找 , 服务器使用的是TomCat 服务器代码; servlet的使用需要在xml中注册 package servlet; import java.io.IOException; import java.util.Arr
[读书笔记]读法拉第传 comsci 读书笔记
1831年的时候,一年可以赚到1000英镑的人..应该很少的... 要成为一个科学家,没有足够的资金支持,很多实验都无法完成但是当钱赚够了以后....就不能够一直在商业和市场中徘徊......
随机数的产生沐刃青蛟随机数
c++中阐述随机数的方法有两种：一是产生假随机数（不管操作多少次，所产生的数都不会改变）这类随机数是使用了默认的种子值产生的，所以每次都是一样的。 //默认种子 for (int i = 0; i < 5; i++) { cout<<
PHP检测函数所在的文件名 IT独行者 PHP 函数
很简单的功能，用到PHP中的反射机制，具体使用的是ReflectionFunction类，可以获取指定函数所在PHP脚本中的具体位置。创建引用脚本。代码： [php] view plain copy // Filename: functions.php <?php&nbs
银行各系统功能简介文强chu 金融
银行各系统功能简介　业务系统核心业务系统业务功能包括：总账管理、卡系统管理、客户信息管理、额度控管、存款、贷款、资金业务、国际结算、支付结算、对外接口等清分清算系统以清算日期为准，将账务类交易、非账务类交易的手续费、代理费、网络服务费等相关费用，按费用类型计算应收、应付金额，经过清算人员确认后上送核心系统完成结算的过程国际结算系
Python学习1(pip django 安装以及第一个project) 小桔子 python django pip
最近开始学习python,要安装个pip的工具。听说这个工具很强大，安装了它，在安装第三方工具的话so easy!然后也下载了，按照别人给的教程开始安装，奶奶的怎么也安装不上！第一步：官方下载pip-1.5.6.tar.gz, https://pypi.python.org/pypi/pip easy! 第二部：解压这个压缩文件，会看到一个setup.p
php 数组 aichenglong PHP 排序数组循环多维数组
1 php中的创建数组 $product = array('tires','oil','spark');//array()实际上是语言结构而不是函数 2 如果需要创建一个升序的排列的数字保存在一个数组中，可以使用range()函数来自动创建数组 $numbers=range(1,10)//1 2 3 4 5 6 7 8 9 10 $numbers=range(1,10,
安装python2.7 AILIKES python
安装python2.7 1、下载可从 http://www.python.org/进行下载#wget https://www.python.org/ftp/python/2.7.10/Python-2.7.10.tgz 2、复制解压 #mkdir -p /opt/usr/python #cp /opt/soft/Python-2
java异常的处理探讨百合不是茶 JAVA异常
//java异常 /* 1，了解java 中的异常处理机制，有三种操作 a,声明异常 b,抛出异常 c,捕获异常 2，学会使用try-catch-finally来处理异常 3，学会如何声明异常和抛出异常 4，学会创建自己的异常 */ //2，学会使用try-catch-finally来处理异常
getElementsByName实例 bijian1013 element
实例1： <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/x
探索JUnit4扩展：Runner bijian1013 java 单元测试 JUnit
参加敏捷培训时，教练提到Junit4的Runner和Rule，于是特上网查一下，发现很多都讲的太理论，或者是举的例子实在是太牵强。多搜索了几下，搜索到两篇我觉得写的非常好的文章。文章地址：http://www.blogjava.net/jiangshachina/archive/20
[MongoDB学习笔记二]MongoDB副本集 bit1129 mongodb
1. 副本集的特性 1)一台主服务器(Primary),多台从服务器(Secondary) 2)Primary挂了之后，从服务器自动完成从它们之中选举一台服务器作为主服务器，继续工作，这就解决了单点故障，因此，在这种情况下，MongoDB集群能够继续工作 3)挂了的主服务器恢复到集群中只能以Secondary服务器的角色加入进来 2
【Spark八十一】Hive in the spark assembly bit1129 assembly
Spark SQL supports most commonly used features of HiveQL. However, different HiveQL statements are executed in different manners: 1. DDL statements (e.g. CREATE TABLE, DROP TABLE, etc.)
Nginx问题定位之监控进程异常退出 ronin47
nginx在运行过程中是否稳定，是否有异常退出过？这里总结几项平时会用到的小技巧。 1. 在error.log中查看是否有signal项，如果有，看看signal是多少。比如，这是一个异常退出的情况： $grep signal error.log 2012/12/24 16:39:56 [alert] 13661#0: worker process 13666 exited on s
No grammar constraints (DTD or XML schema).....两种解决方法 byalias xml
方法一：常用方法关闭XML验证工具栏：windows => preferences => xml => xml files => validation => Indicate when no grammar is specified:选择Ignore即可。方法二：（个人推荐）添加内容如下 <?xml version=
Netty源码学习-DefaultChannelPipeline bylijinnan netty
package com.ljn.channel; /** * ChannelPipeline采用的是Intercepting Filter 模式 * 但由于用到两个双向链表和内部类，这个模式看起来不是那么明显，需要仔细查看调用过程才发现 * * 下面对ChannelPipeline作一个模拟，只模拟关键代码： */ public class Pipeline {
MYSQL数据库常用备份及恢复语句 chicony mysql
备份MySQL数据库的命令，可以加选不同的参数选项来实现不同格式的要求。 mysqldump -h主机 -u用户名 -p密码数据库名 > 文件备份MySQL数据库为带删除表的格式，能够让该备份覆盖已有数据库而不需要手动删除原有数据库。 mysqldump -–add-drop-table -uusername -ppassword databasename > ba
小白谈谈云计算--基于Google三大论文 CrazyMizzz Google 云计算 GFS
之前在没有接触到云计算之前，只是对云计算有一点点模糊的概念，觉得这是一个很高大上的东西，似乎离我们大一的还很远。后来有机会上了一节云计算的普及课程吧，并且在之前的一周里拜读了谷歌三大论文。不敢说理解，至少囫囵吞枣啃下了一大堆看不明白的理论。现在就简单聊聊我对于云计算的了解。我先说说GFS &n
hadoop 平衡空间设置方法 daizj hadoop balancer
在hdfs-site.xml中增加设置balance的带宽，默认只有1M： <property> <name>dfs.balance.bandwidthPerSec</name> <value>10485760</value> <description&g
Eclipse程序员要掌握的常用快捷键 dcj3sjt126com 编程
判断一个人的编程水平，就看他用键盘多，还是鼠标多。用键盘一是为了输入代码（当然了，也包括注释），再有就是熟练使用快捷键。曾有人在豆瓣评《卓有成效的程序员》：“人有多大懒，才有多大闲”。之前我整理了一个程序员图书列表，目的也就是通过读书，让程序员变懒。程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可以那么勤奋，每天都孜孜不倦得
Android学习之路 dcj3sjt126com Android学习
转自：http://blog.csdn.net/ryantang03/article/details/6901459 以前有J2EE基础，接触JAVA也有两三年的时间了，上手Android并不困难，思维上稍微转变一下就可以很快适应。以前做的都是WEB项目，现今体验移动终端项目，让我越来越觉得移动互联网应用是未来的主宰。下面说说我学习Android的感受，我学Android首先是看MARS的视
java 遍历Map的四种方法 eksliang java HashMap java 遍历Map的四种方法
转载请出自出处： http://eksliang.iteye.com/blog/2059996 package com.ickes; import java.util.HashMap; import java.util.Iterator; import java.util.Map; import java.util.Map.Entry; /** * 遍历Map的四种方式
【精典】数据库相关相关 gengzg 数据库
package C3P0; import java.sql.Connection; import java.sql.SQLException; import java.beans.PropertyVetoException; import com.mchange.v2.c3p0.ComboPooledDataSource; public class DBPool{
自动补全 huyana_town 自动补全
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"><html xmlns="http://www.w3.org/1999/xhtml&quo
jquery在线预览PDF文件，打开PDF文件天梯梦 jquery
最主要的是使用到了一个jquery的插件jquery.media.js，使用这个插件就很容易实现了。核心代码 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.
ViewPager刷新单个页面的方法 lovelease android viewpager tag 刷新
使用ViewPager做滑动切换图片的效果时，如果图片是从网络下载的，那么再子线程中下载完图片时我们会使用handler通知UI线程，然后UI线程就可以调用mViewPager.getAdapter().notifyDataSetChanged()进行页面的刷新，但是viewpager不同于listview，你会发现单纯的调用notifyDataSetChanged()并不能刷新页面
利用按位取反（~）从复合枚举值里清除枚举值草料场 enum
以 C# 中的 System.Drawing.FontStyle 为例。如果需要同时有多种效果，如：“粗体”和“下划线”的效果，可以用按位或（|） FontStyle style = FontStyle.Bold | FontStyle.Underline; 如果需要去除 style 里的某一种效果，
Linux系统新手学习的11点建议刘星宇编程工作 linux 脚本
　　随着Linux应用的扩展许多朋友开始接触Linux，根据学习Windwos的经验往往有一些茫然的感觉：不知从何处开始学起。这里介绍学习Linux的一些建议。　　一、从基础开始：常常有些朋友在Linux论坛问一些问题，不过，其中大多数的问题都是很基础的。例如：为什么我使用一个命令的时候，系统告诉我找不到该目录，我要如何限制使用者的权限等问题，这些问题其实都不是很难的，只要了解了 Linu
hibernate dao层应用之HibernateDaoSupport二次封装 wangzhezichuan DAO Hibernate
/** * 方法描述:sql语句查询返回List<Class> * 方法备注: Class 只能是自定义类 * @param calzz * @param sql * @return * 创建人：王川 * 创建时间：Jul

Vision Transformer及其变体（自用）

0 回顾Transformer

0.1 encoder

0.2 decoder

1 Vision Transformer

1.1 简介

1.2 相关工作

1.3 方法

1.3.1 ViT的过程

1.3.2 分辨率调整

1.4 总结

2 DeiT

2.1 知识蒸馏

2.1.1 理论基础

2.1.2 分类

2.2 DeiT模型

2.3 总结

3 swin transformer

3.1 简介

3.2 框架

3.3 Swin Transformer Block

3.4 Patch Merging

3.5 总结

4 MobileViT

4.1 MobileViT v1

4.1.1 MV2

4.1.2 MobileViT block

4.2 MobileViT v3

4.2.1 简介

4.2.2 端到端的架构

4.2.3 模型表现

5 DETR

5.1 整体框架

5.1.1 resnet50

5.1.2 encoder

5.1.3 decoder

5.1.4 预测头

5.2 训练策略

写在后面

你可能感兴趣的:(transformer,深度学习,人工智能)