注意力机制还有招?混合注意力好发不卷

2025深度学习发论文&模型涨点之——混合注意力

混合注意力是一种融合多种不同类型注意力机制的技术,旨在提升模型对数据中关键特征的识别与处理能力。以SENet为例,它通过对特征通道进行全局池化操作,随后利用两个全连接层对通道的重要性进行建模,从而实现通道级的注意力分配。

而CBAM则先应用空间注意力,通过利用特征图的通道最大值和平均值来突出重要区域,之后再进行通道注意力操作,借助全连接层来强化特定通道的特征表现。HAT结合了通道注意力、自注意力以及重叠交叉注意力等多种注意力机制,在图像超分辨率任务中,其性能大幅超越了当前最先进方法。

我整理了一些混合注意力【论文+代码】合集,需要的同学公人人人号【AI创新工场】自取。

论文精选

论文1:

Activating More Pixels in Image Super-Resolution Transformer

激活更多像素的图像超分辨率变换器

方法

      Hybrid Attention Transformer (HAT):提出了一种新的混合注意力变换器(HAT),结合了通道注意力和基于窗口的自注意力机制,以利用全局统计信息和强大的局部拟合能力。

      Overlapping Cross-Attention Block (OCAB):引入了重叠交叉注意力块(OCAB),以增强邻近窗口特征之间的交互。

      Same-task Pre-training:采用同一任务预训练策略,利用大规模数据集进行预训练,以进一步提升模型性能。

      Channel Attention Block (CAB):在标准Transformer块中插入通道注意力块(CAB),以增强网络的表示能力。

      注意力机制还有招?混合注意力好发不卷_第1张图片

      创新点

      激活更多像素:通过结合通道注意力和自注意力机制,HAT能够激活更多的输入像素,从而显著提升图像超分辨率的性能。与SwinIR相比,HAT在Urban100数据集上平均提升了0.48dB至0.64dB的PSNR值。

      重叠交叉注意力:OCAB通过重叠窗口划分,增强了跨窗口信息的交互,显著提高了模型的性能。在Manga109数据集上,HAT与OCAB结合使用时,PSNR值比不使用OCAB时提高了0.16dB。

      同一任务预训练:通过在大规模数据集(如ImageNet)上进行同一任务预训练,HAT能够进一步提升性能。与未预训练的模型相比,预训练后的HAT在Urban100数据集上PSNR值提升了0.5dB至1dB。

      通道注意力的优化:通过引入CAB,HAT在通道注意力和自注意力之间实现了更好的平衡,进一步提升了性能。在Manga109数据集上,使用CAB的HAT比不使用CAB的HAT在PSNR值上提升了0.05dB。

      注意力机制还有招?混合注意力好发不卷_第2张图片

      论文2:

      Physics Inspired Hybrid Attention for SAR Target Recognition

      物理启发的混合注意力用于合成孔径雷达目标识别

      方法

      Physics Inspired Hybrid Attention (PIHA):提出了一种物理启发的混合注意力机制(PIHA),利用物理信息的高级语义来激活和引导目标局部语义的特征组,并基于知识先验重新加权特征的重要性。

      Physics-Activated Squeeze and Excitation (PASE):设计了一个物理驱动的注意力模块PASE,利用物理信息激活特征并进行特征重新加权。

      Selective Average Pooling (SAP):提出了一种选择性平均池化方法,用于在物理驱动的注意力模块中更好地关注目标的主要语义区域。

      Physical Information Recalibration (PIR):设计了一个物理信息重新校准模块,用于在不同目标组件之间建立交互,增强特征的表达能力。

      注意力机制还有招?混合注意力好发不卷_第3张图片

      创新点

        物理信息的灵活利用:PIHA能够灵活地利用不同类型的物理信息,如散射中心参数,显著提升了目标识别的性能。在MSTAR数据集上,PIHA在不同测试场景中平均提升了2.5%至9.8%的准确率。

        物理驱动的注意力机制:PASE模块通过物理信息激活特征并重新加权,显著提高了模型对局部语义的感知能力。在MSTAR数据集上,PASE在特定方位角下的识别准确率比数据驱动的SE注意力高出10%以上。

        选择性平均池化:SAP方法通过选择性地保留特征值,避免了背景信息对全局平均池化的主导作用,显著提高了特征的区分度。

        物理信息重新校准:PIR模块通过在不同目标组件之间建立交互,进一步增强了特征的表达能力,提升了模型的泛化能力。在MSTAR数据集上,PIR模块使模型在不同测试场景中的平均准确率提升了1.5%至3.0%。

        注意力机制还有招?混合注意力好发不卷_第4张图片

        论文3:

        MoA: Mixture of Sparse Attention for Automatic Large Language Model Compression

        MoA:自动大型语言模型压缩的混合稀疏注意力

        方法

          Mixture of Attention (MoA):提出了一种混合注意力(MoA)方法,自动为不同的注意力头和层定制不同的稀疏注意力配置。

          Heterogeneous Elastic Rules:设计了异构弹性规则,根据输入长度动态调整每个注意力头的注意力范围。

          Automatic Optimization Pipeline:提出了一种自动优化流程,通过梯度分析和多目标优化,自动选择最优的稀疏注意力压缩方案。

          Calibration Dataset Construction:强调了校准数据集的重要性,使用具有长距离依赖性的数据集和模型生成的响应作为监督,以准确评估压缩效果。

          注意力机制还有招?混合注意力好发不卷_第5张图片

          创新点

          有效上下文长度的显著提升:MoA通过异构弹性规则,将有效上下文长度扩展到平均注意力跨度的3.9倍。在Vicuna-7B模型上,MoA在8k输入长度下,有效上下文长度达到了60k,远超其他方法。

          检索准确率的显著提升:MoA在长文本检索任务中,检索准确率比均匀稀疏注意力方法提高了1.5至7.1倍。在50%密度下,MoA在Vicuna-7B模型上的检索准确率达到了97%,远高于其他方法。

          性能与效率的平衡:MoA在保持与密集模型相当的性能的同时,显著提高了解码吞吐量。在50%密度下,MoA在Vicuna-7B模型上的解码吞吐量比FlashAttention2提高了6.6至8.2倍。

          自动优化流程的高效性:MoA的自动优化流程能够在数小时内完成,例如在Vicuna-13B模型上仅需2小时。这使得MoA能够在大规模模型上高效地应用。

          注意力机制还有招?混合注意力好发不卷_第6张图片

          你可能感兴趣的:(注意力机制还有招?混合注意力好发不卷)