L-DETR: A Light-Weight Detector for End-to-End Object Detection With Transformers

L-DETR

  • ABSTRACT
  • I. INTRODUCTION
  • II. RELATED PRELIMINARY WORK
    • **A. 用于目标检测的轻型模型**
    • **B. 激活函数**
    • **C. 规范化**
  • III.一种基于PP-LCNet和变压器的轻型检测器
    • A.基于骨干的改进的PP-LCNet
    • B.改进的Transformer
  • IV.EXPERIMENT AND ANALYSIS
    • A. IMAGE DATASETS
    • B. DETAILS OF MODELS
    • C. EXPERIMENTAL RESULTS
    • V. CONCLUSION


ABSTRACT

现在大多数高性能模型都被部署到云上,这不仅会影响模型的实时性能,也会限制模型的广泛使用。如何设计一个可以在非云设备上离线部署的轻量级探测器是一种获得高性能的很有前途的方法。因此,本文提出了一种基于PP-LCNet和改进后的轻量级检测器变压器L-DETR。我们重新设计了PP-LCNet的结构,并将其作为L-DETR的主干进行特征提取。此外,我们在编解码器-解码器模块中采用组归一化和多层感知器中的h-sig激活函数,以提高L-DETR中变压器的精度。我们提出的模型的参数数量分别为原始基于resnet50和resnet18的DETR26%和46%。在多个数据集上的实验结果表明,该方法在目标识别方面优于DETR模型,且收敛速度快。在多个数据集上的实验结果表明,我们的方案在目标识别和边界盒检测方面比DETR模型具有更高的性能。该代码可以在https://github.com/wangjian123799/L-DETR.git上找到。

I. INTRODUCTION

对象检测是检测图像中某个类的对象的实例的任务。随着深度学习方法的诞生,在行人预测[1]、目标检测、目标跟踪和图像合成[2]等各个领域都取得了进展。受益于深度学习的进步,许多基于卷积神经网络(CNN)的深度检测器在目标检测方面表现出了优异的性能。这种检测器的参数规模大,只能在云环境中进行训练和部署,使得在网络延迟和带宽波动下难以获得较高的实时性能。在边缘设备上部署离线探测器是一种很有前途的方法,可以实现实时目标的人工智能检测。这些检测器可能无法完成在边缘设备上的传输学习和微调,因为计算限制。设计一个需要较低资源消耗和获得更高性能的轻量级检测器将是突破开发离线检测器的关键问题。

现代检测器通过在大量的建议[3]、锚定[4]或窗口中心[5]上定义替代回归和分类问题,间接地解决了这个集合预测任务。近似重复预测的后处理步骤、锚点集的设计以及将对象帧分配给锚点的启发式方法,对其性能[6]有显著影响。然而,参数人工校准的合理性存在争议,导致了模型性能的不确定性。考虑到注意机制是对集合的直接预测,越来越多的学者将研究重点转向利用注意机制设计高性能的探测器。例如,提出了一种自适应聚类转换器ACT [7],利用局部敏感散列方法对查询特征进行自适应聚类,并采用基本的原型交互来实现集群在查询键交互附近的特性。UL-DETR [8]是一种目标检测的无监督预训练方法,利用与补丁检测相关的补丁特征重建分支来衡量代理任务中分类化和定位的重要性。此外,DETR [9]模型,通过使用一个变压器,设计巧妙,允许端到端对象检测,无需手动后处理步骤。尽管DETR在目标检测方面表现出了优异的性能,但它不能在其大规模权重的边缘设备上进行训练和部署。

许多研究人员研究了在非云设备上完成实时目标检测的轻量级探测器。例如,基于yolov3的模型[10]被设计为在检测具有某些终端单元的目标时获得较高的实时推理速度,但其精度低于其他算法。此外,还提出了一种基于Fast R-CNN [3]的轻量级模型,用于执行非云设备中的目标检测任务。此外,还提出了一种轻量级CPUCNN[11](PP-LCNet),它在多个任务上具有较高的性能。一般来说,轻量级探测器主要在效率和精度之间有妥协。虽然上述轻量级检测器具有有效的推理速度,但对于某些任务,其准确性并不令人满意。

因此,提高轻量级探测器的精度是在边缘设备上进行实时目标检测的一个挑战。考虑到DETR模型具有良好的检测精度,PP-LCNet的效率更高,结合它们的进展可以设计出更精确的轻量级探测器,进一步有助于实时目标检测。基于此,本文提出了一种基于cnn的轻量级模型(称为L-DETR),该模型可以在边缘设备上实现离线实时目标检测。创新的内容如下:

  • 我们设计了一个基于PP-LCNet的新的DETR主干来提取数据特征,并大大降低了DETR参数的规模。

  • 我们进一步改进了作为轻量级模型中的组件使用的变压器。具体来说,考虑到参数数量的减少所造成的精度损失,我们提出了一种新的归一化策略来改进变压器模块。为了进一步减轻在计算能力较低的边缘设备上进行浮点计算所造成的精度损失,我们利用h-s型[12]激活函数改进了DETR的前馈网络(FFN)。

  • 我们提出的模型的参数数量分别为原始DETR的26%和46%,其主干分别为50和18。实验结果表明,该方案在目标识别和帧检测精度方面具有更高的深度检测模型。

本文的其余部分的安排如下。以下部分将介绍相关的工作。第三节详细解释了所建议的方法。第四节规定实验结果,最后,在第五节中得出了一个结论。

II. RELATED PRELIMINARY WORK

A. 用于目标检测的轻型模型

近年来,目标检测迎来了一个快速发展的新时代,基于自注意机制的转换器在探测器中得到了充分的应用。通常,基于转换器的目标检测算法大致分为两类。一是直接使用部分或全部的转换器作为特征提取的主干。例如,Swin transformer[13]和SOTA通常使用骨干网来提取具有高性能的特性。另一种是使用CNN进行特征提取,然后使用一个转换器进行编码和解码。例如,DETR [9]作为第一个端到端模型,可以与Faster R-CNN [3]进行比较,其对大型物体的效果更好。尽管这两种方法都显示出了出色的性能,但它们需要大量的数据和许多参数,这使得它们只有在部署在云上时才能展示出优越的性能。随着YOLO系列技术的发展,网络层数越来越大,精度也越来越高。显然,精度的提高伴随着参数数量的增加。

因此,当模型从云设备迁移到非云设备时,最关键的问题是如何减少模型的参数。目前,解决这一问题的方法有很多,大致可以分为压缩的预训练网络和直接训练的小网络。压缩后的预训练网络主要分为四种类型:剪枝[14]、量化[15]、知识蒸馏[16]和低秩分解[17]。

网络剪枝是提高模型推理速度和减小模型规模的一种有效方法,但剪枝可能不会降低实际的推理速度。权重量化技术通过降低参数的浮点数来减少模型的存储空间。这是一种用精度交换速度的方法。随着量化率的提高,精度将会下降。知识蒸馏将知识从一个广泛的训练有素的教师网络转移到许多更小、更快的学生模型中。而现有的算法并不稳定。低秩分解方法主要采用矩阵分解对深度神经网络中的原始卷积核进行分解,但会导致准确率的显著下降。这些方法很难进行二次培训,不用于特定的应用场景。为了缓解上述问题,本文采用的小网络直接训练是近年来流行的一种方法。直接训练小网络可以显著避免网络精度的损失,提高推理速度[18]。此外,研究人员还试图在不同的应用中直接促进激活函数的发展和归一化,以提高模型的性能。

B. 激活函数

激活函数是神经网络的重要组成部分。一个合适的激活函数可以显著提高训练模型的性能。激活函数[19]可以将输入值压缩到很大范围内[0,1]的输出范围。其缺点是计算量大,并出现了梯度消失的问题。ReLU [20]激活函数可以用稀疏数表示,可以更有效地减少梯度和反向传播,避免了梯度爆炸和梯度消失的问题。Swish的[21]激活函数没有上限,但有一个下限和较高的平滑度。与ReLU相比,它有大量的计算和对设备的具体要求。

C. 规范化

自2015年提出批处理归一化(BN)[22]以来,它在各种网络中得到了广泛的应用。BN通过批量计算的均值和方差对特征进行归一化,以简化优化,使非常深的网络收敛。然而,BN对批处理大小的大小很敏感。因为每次计算出的平均值和方差都是在一个批上,如果批的大小太小,计算出的平均值和方差不足以代表整个数据的分布。当运行一个非常深的网络时,对设备的要求很高。

层标准化[23]和实例标准化[24]的计算不依赖于批的大小。前者适用于序列模型。同一层的神经元输入具有相同的均值和方差,不同的输入样本具有其他的均数和平方数。后者通常用于生成模型,其生成结果主要取决于图像的实例。因此,利用实例归一化对H∗W进行归一化,可以加速模型的收敛性,并保持每个图像实例之间的独立性。

III.一种基于PP-LCNet和变压器的轻型检测器

为了平衡效率和精度,基于DETR和PP-LCNet设计了一种名为L-DETR的轻量级探测器。它由两个主要部分组成,如图1所示。其中一部分是该模型的支柱。它是一种改进的PP-LCNet,用于提取数据特征。与DETR相比,L-DETR在新的主干上的参数更少。其他部分是一个改进后的变压器。它用于计算全局信息并进行最终预测。改进了其归一化和FFN,从而提高了帧检测的精度。接下来,将讨论关于主干网、变压器模块和FFN的更多细节。其中,n为层数,位置编码包括空间位置编码和可学习的位置编码。
L-DETR: A Light-Weight Detector for End-to-End Object Detection With Transformers_第1张图片

A.基于骨干的改进的PP-LCNet

在骨干网中,它是提取数据特征的关键组件。实践表明,具有大规模参数的模型通常具有较高的性能,这使得探测器很快变得非常大。显然,设计一个小型而有效的主干对于轻量级探测器是至关重要的。因此,我们研究了PP-LCNet,并改进了它作为所提出的检测器的主干。

PP-LCNet使用depsepconv作为基本模块。这个模块没有类似于快捷方式的操作,因此没有附加的操作,如连接或元素式的添加。这些操作将减慢模型的推理速度,提高小模型的精度。最后,PP-LCNet使用了几个基本模块来堆叠一个地下室。除了这个地下室,PP-LCNet也有平均的池化、扁平化和完整的连接层。

为了使PP-LCNet具有更丰富的表达能力,提高其计算效率,我们重新设计了PP-LCNet的结构。具体来说,与最初的PP-LCNet一样,改进后的网络从茎Conv开始,然后是5个3×3dep×模块,它们被组织为三层。第一层是一个输出形状为32×128×128的模块。第二层有两个模块,输出形状为64×64×64,最后层有两个模块,输出形状为128×32×32。在这5个3×3深度模块之后,有7个5×5深度模块被分为两组。一组有五个模块,输出形状为256×16×16。另一个有两个模块,输出形状为512×8×8。最后,改进后的模型得到了1280维的1×1卷积。改进后的PP-LCNet的结构细节见图2。

与原来的PP-LCNet相比,改进后的模型有两个主要的区别。与原来的PP-LCNet相比,改进后的模型有两个主要的区别一是删除平均池化层(GAP)和全连接层(FC)。另一种情况是,不同类型的深度曲线(3×3或5×5)的输出形状被放大。这些差异导致改进后的模型具有更小的参数规模、更高的计算效率和更丰富的数据特征。特别是去除GAP层可以捕获大量的背景和边缘特征,使改进后的模型更适合作为抽象特征的主干。接下来,我们进一步介绍了改进后的变压器来进行预测。
L-DETR: A Light-Weight Detector for End-to-End Object Detection With Transformers_第2张图片

B.改进的Transformer

我们都知道,激活函数的质量显著地影响了网络的性能。将变压器的输出张量转移到三层感知器、具有ReLU激活函数的线性投影层和隐层d维数上。三层感知器也用于预测帧w.r.t的归一化中心坐标、高度和宽度,线性层使用Softmax函数来预测类的标签。

一些实践表明,H-Sigmoid激活函数比ReLU具有更高的性能。因此,我们使
用H-Sigmoid来代替ReLU。h-s型式使用ReLU6函数来模拟s型式函数。在变压器中使用hs型变压器有一些优点。首先,H-Sigmoid函数可以抵消ReLU激活函数的过度线性增长,而这种不受限制的增长可能会影响模型的稳定性。其次,当非云设备的浮点数低于低精度时,也能获得良好的数值分辨率。最后,H-Sigmoid激活函数的计算量较少,可以防止梯度爆炸和梯度消失。ReLU6和H-Sigmoid的活化函数公式及其导数见式(1)和(2)。
R e L U = m i n ( 6 , m a x ( 0 , x ) ) ∈ [ 0 , 6 ] ReLU = min(6, max(0,x)) \in [0,6] ReLU=min(6,max(0,x))[0,6]
H a r d S i g m o i d = ∈ [ 0 , 1 ] HardSigmoid = \in [0,1] HardSigmoid=∈[0,1]
此外,为了提高变压器的训练稳定性,我们进一步研究了归一化函数。DETR中使用的变压器采用层归一化的方法,将通道方向上的形状由 [ W ∗ H , b , c ] [W*H,b,c] [WH,b,c]变为 [ W ∗ H , 1 , c ] [W*H,1,c] [WH,1,c]。层归一化(LN)的优点之一是,它可以在单个数据块中进行归一化,而无需进行批量训练。因此,它可以很好地使用RNN,而不依赖于批处理大小和输入序列的长度,并具有积极的影响。然而,它对CNN并没有产生更大的影响。考虑到以较少的计算成本和保留大量的图像背景信息来近似整个数据的均值和标准差,我们采用CNN的组归一化来获得更多的效果。组数是可调的,这为模型寻找更合适的方法提供了可行性。通过按通道方向进行分组,然后对每一组进行归一化,计算出 ( C / / G ) ∗ H ∗ W (C//G)∗H∗W C//GHWd的平均值。与层归一化一样,它的计算独立于批大小,不受约束。组归一化公式如等式(3-5)所示:
x i = 1 σ i ( x i − u i ) x_i = \frac {1} {\sigma_i}(x_i-u_i) xi=σi1(xiui)
其中,x表示由一个图层计算出的特征,i是一个索引。在二维图像中, i = ( i b 、 i c 、 i w ) i =(i_b、i_c、i_w) i=ibiciw是四维向量索引中的特征 ( b 、 C 、 H ∗ W ) (b、C、H∗W) bCHW顺序,式中,b为批量大小,C为通道,H∗W为高度和宽度。平均u和σ标准偏差(std)的计算方法为:
u i = 1 m ∑ K ∈ S i x K , σ i = 1 m ∑ K ∈ S i ( x K − u i ) 2 + ε u_i =\frac 1{m} \sum _{K \in S_i} x_K, \sigma_i = \sqrt {\frac 1{m} \sum _{K \in S_i} (x_K-u_i)^2+\varepsilon} ui=m1KSixK,σi=m1KSi(xKui)2+ε

ε \varepsilon ε作为一个小的常数。 S i S_i Si是计算均值和std的像素集,m是这个集合的大小。

S i = K ∣ K N = i N , K C C / G = i C C / G S_i={K|K_N=i_N,\frac {K_C}{C/G}=\frac {i_C}{C/G} } Si=KKN=iN,C/GKC=C/GiC

这里, G G G是组的数量,一个预定义的超参数。 C / G C/G C/G是每一组的频道数。 K C C / G = i C C / G \frac {K_C}{C/G}=\frac {i_C}{C/G} C/GKC=C/GiC表示索引i和K在同一组通道中。

IV.EXPERIMENT AND ANALYSIS

本节介绍了我们提出的L-DETR模型的实验结果和分析。我们实验的目的是通过在两个不同的设备上使用不同的数据集来验证我们的建议。实验结果表明,L-DETR模型在目标检测方面的精度优于DETR模型。

A. IMAGE DATASETS

实验将从三个方面进行:首先,我们展示了L-DETR在不平衡状态的数据集下的泛化能力。本文中使用的不平衡数据(COCO-01,COCO-02)是通过剪切COCO2017数据集获得的。将训练集与验证集之间的不一致性视为噪声。然后,利用包含多个类别的数据来验证L-DETR的目标检测能力。数据(COCO-03、COCO-04、MVI-01、Person)在裁剪COCO2017、2017和自采集的行人数据集后获得。MVI-01数据用于验证模型的工程能力。最后,在不同的器件上进行了实验,验证了L-DETR的兼容性。

考虑到实验设备计算能力的限制,我们从COCO2017和UA-DETRAC中收集了大量的小数据集,以满足我们实现实验的不同需求。

来自COCO2017的小数据集:我们收集了来自COCO2017的5个小数据集,分别为COCO-01、COCO-02、COCO-03、COCO-04和COCO-5。COCO-01、COCO-02和COCO-05中的图像被随机选择,这意味着训练集和验证集中所包含的类型将不一致。目的是验证L-DETR的泛化能力。COCO-01和COCO-05的训练集包含2000张图片,验证集包含500张图像。COCO-02的训练集包含2200张图片,验证集包含800张图像。COCO-03有四个类别(汽车、巴士、飞机、船)。它的训练集包含1868张图片,其验证集包含462张图片。COCO-04有八个类别(猫、狗、马、羊、牛、大象、熊、长颈鹿)。其训练集包含和验证集分别包括1937张图片和718张图像。

来自UA-DETRAC的小数据集:该数据集是通过使用道路监控摄像头收集车辆和动态标记8250辆车辆和121万个物体箱获得的。车辆可分为四类:汽车、巴士、小型货车等。我们收集了2648张图片作为训练集,662张作为验证集,称为MVI-01。使用该数据集的目的是验证L-DETR的应用能力。

自收集数据集(人):我们使用照相机收集名为“人”的数据集。其训练集包括1343张图像,验证集有521张图像。该数据集的大部分图像与许多人和对象盒重合,并用于验证所提模型的边界盒检测能力。

B. DETAILS OF MODELS

为了分析我们的方案与DETR模型相比的性能,我们首先建立了一个DETR模型,该变压器有三层编码器和解码器,并与256个隐藏单元完全连接。此外,已建立的DERT的FFN维数为1024,多头自注意机制使用的头数为4。

通常,所建立的DETR模型可以使用三个骨干,分别是resnet50, resnet34,和 resnet18。我们建立了带有三个骨干的DETR,作为L-DETR的三个基本参考。此外,我们还设计了改进后的PP-LCNet和变压器的性能分析模型。首先,设计了一个使用原始PP-LCNet作为主干来替代网络50的模型。然后,我们使用改进后的PP-LCNet作为DETR的骨干来研究其性能。最后,利用H-Sigmoid和L-DETR建立了改进的PP-LCNet和改进的变压器。需要注意的是,与DETR中的骨干一样,原始的PP-LCNet是经过预训练的,改进后的PP-LCNet也使用了预训练模型的部分参数。需要注意的是,L-DETR的参数量分别为原始DETR的26%和46%。

在分类精度方面,我们使用训练集50次迭代的平均分类错误率进行比较。在边缘检测方面,我们使用第45次到第50次迭代中的最高值进行比较。

C. EXPERIMENTAL RESULTS

我们实施了四组实验来评估L-DETR的性能。在第一组实验中,所有上述模型都是在随机数据集COCO-5上实现的,用于评估分类性能。除L-DETR模型外,其他模型的学习速率相同。骨干的学习率(lrb)设置为1×1005,变压器的学习率(lr)设置为1×1004。L-DETR模型已经被多次测试,其他模型的学习速度相同。骨干学习率(lrb)设置为4×1005,变压器的学习率(lr)设置为5×1006。在验证集上进行的第一组实验的主要结果如图3所示。如图3 (a)所示,与主干PP-LCNet(骨干)的DERT模型相比,原始PP-LCNet(主干)的DETR模型的分类性能较差。这一结果表明,与50、34和18相比,捕获原始PP-LCNet特征的能力较弱。而图3 (b)显示,改进后的PP-LCNet更好,但仍不能与50、34和18相比。因此,有必要进一步改进变压器,以更充分地利用不足的特性。

从图3 ©中,我们可以看出,通过将改进的PP-LCNet和改进的变压器与h-s型函数相结合,在分类方面有了改进。存在显著的波动,这意味着在一个较小的日期集和h-s型函数下,模型可能会过拟合。因此,利用归一化方法来提高稳定性和缓解过拟合可能是一种很有前途的方法。图3 (d)所示的结果准确地证明了组归一化的显著性效应。由此我们可以看出,通过改进的PPLCNet和变压器,L-DERT不仅具有更好的稳定性,而且比具有不同骨干的DERT模型具有更好的性能。

图3所示的实验结果证明了L-DERT在分类上的优势。尽管L-DETR在分类方面具有更好的性能,但在边界盒检测方面的改进很少很小。我们进一步进行了另一组实验来分析L-DETR的边界盒检测能力。我们实现的第二组实验被用来分析L-DETR的边界盒检测能力。所有的实验都是在gpu上运行的。这些实验均采用了COCO-01、COCO-02和COCO-03。考虑到图3的结果表明,50、34和18的DETR模型在50元内具有相似的性能,我们只使用18的DETR模型对L-DETR的能力进行对比分析。两种模型的学习速率相同,其中骨干的学习速率(lrb)设置为4×1005,变压器的学习速率(lr)设置为5×1006。在验证集上的实验结果如表1所示。

COCO-01和COCO-02为不平衡数据。很明显,我们的L-DETR对该不平衡数据的分类-阳离子错误率显著降低,其对边界盒检测的影响优于使用resnet18的DTER。间接证明了L-DETR的泛化能力较好。在COCO-03上,它从数据集COCO2017中剪辑了四个类,我们的模型的收敛速度比DTER更快,并显著提高了边界盒检测。

虽然分类错误率不规则地降低,边界盒检测值的提高也不太大,但表1中的结果显示了L-DETR在分类和边界盒检测方面的优越性。

在前两组实验中,我们在DERT模型中使用了更高的学习率。为了消除学习速率的干扰,并进一步验证所提出的模型,我们在不同学习速率的应用数据集COCO-03、MVI-01和Person上设计了第三组实验。对比实验结果如表2所示。从四类COCO-03中可以看出,L-DETR模型的收敛速度仍然优于DETR模型。在MVI-01和背景相似的人上,我们的模型对边缘检测的检测值高于DETR,分类错误率低于DETR。我们的模型在不同数据集上的分类错误率和边缘检测方面均优于DETR。

为了验证L-DETR的设备兼容性,我们在两种不同的设备上对L-DETR进行了50次迭代实验。一种是只包含两个GPU的设备,另一种是具有CPU和GPU组合的设备。实验中设置的学习速率是变压器的学习速率(lr)为5×1006,骨干的学习速率(lrb)为4×1005。实验结果如表3所示。

当DETR和L-DETR使用相同的变压器学习速率(lr)到5×1006,比较CPU + GPU设备上的骨干(lrb)到4×1005时,DETR在边界盒检测中得到的值为0.0101,而L-DETR得到的值为0.0210。分类错误率的实验结果如图3所示。即使在不同的设备上,我们的模型在分类错误率和边缘检测方面也优于DETR。

由于L-DETR的主干是由以CPU为重点的设备提出的,我们可以看到CPU上的L-DETR在CPU + GPU上的边缘检测得到了改进。分类错误率增加了,这可能是由于设备的问题。GPU设备在CPU + GPU上的性能不如两个GPU设备好。在CPU + GPU上训练50历元的时间只有在两个GPU上训练50历元的四分之一。随着数据量的增加,这种情况也很明显。我们提出的L-DETR参数仅占以resnet18为骨干的45.7%,以resnet50为骨干的参数为26.1%。即使在CPU + GPU设备上,我们的模型运行50次迭代的时间也大约是以resnet50为骨干的DETR的一半。

V. CONCLUSION

目标检测是计算机视觉的基础任务之一。可以在边缘设备上设计一个轻量级的检测器是获得高性能的一种很有前途的方法。因此,本文提出了一种基于PP-LCNet和变压器的轻量级检测器L-DETR。更具体地说,我们重新设计了PP-LCNet的结构,并将其作为骨干。此外,利用H-Sigmoid激活函数和群组归一化,对L-DETR的重要组成部分变压器进行了改进。多组实验表明,我们提出的模型在分类和边界盒检测方面的优越性。

本文的贡献如下:
1)模型的总体参数显著降低,这有效地解决了只能部署在云中的局限性。我们使用一个轻量级的网络来替代原来的骨干,适合于模型以CNN作为骨干来提取特征。进一步思考,我们是否使用工程蜱在轻量级网络网络变压器作为骨干和结合全球信息的变压器的建模能力与CNN的优势,我们猜它不仅可以减少总体参数,还可以提高模型的推理速度;
2)实验表明,不同的激活函数对不同的归一化方法有显著影响。一些激活函数或归一化方法单独可以得到很好的结果,但两者结合后结果变得不确定。此外,通过激活函数和归一化方法,可以直接提高模型的整体性能,并为不同的实际应用提供新的思路;
3)在实验中,我们发现当DETR使用2层编码器和4层解码器时,其效果高于3层编码器和3层解码器,并发现变压器模块的解码器部分对损耗有显著影响。在解码器部分,第一多头自注意显著影响损失。我们可以将这部分与解码器分离,并将层数设置为1到2。通过上述方法,该模型可以减少参数和损失,保持原有的精度。它为构建类似的DETR模型结构提供了参考。

你可能感兴趣的:(机器学习,1024程序员节,深度学习)