17 - ExternalAttention模块

论文《Beyond Self-attention: External Attention using Two Linear Layers for Visual Tasks》

1、作用

本文提出了一种新颖的注意力机制——外部注意力(External Attention),通过使用两个外部小型可学习的共享内存来实现。这种机制能够用两个连续的线性层和两个归一化层简单实现,并且可以方便地替换现有流行架构中的自注意力机制。外部注意力具有线性复杂度,并且隐式地考虑了所有数据样本之间的关联性,为图像分类、目标检测、语义分割、实例分割、图像生成以及点云分析等视觉任务提供了与自注意力机制相当或优于的性能,同时大幅降低了计算和内存成本。

2、机制

1、外部注意力机制

与自注意力不同,外部注意力通过计算输入特征与两个外部学习内存之间的亲和力来更新特征,这两个外部内存在整个数据集上共享,能够捕捉到跨数据集的全局上下文,提升注意力机制的泛化能力。

2、线性复杂度

外部注意力的计算复杂度为线性,通过减少内存中的元素数量,实现了对大规模输入的直接应用,显著提高了效率。

3、多头外部注意力

通过引入多头机制,外部注意力能够捕获输入的不同方面的关系,增强了模型的表示能力。这种机制对于各种视觉任务都非常有效。

3、独特优势

1、高效且具有正则化作用

外部注意力通过使用较少的参数和线性的计算复杂度,实现了高效的特征更新,并且由于内存单元是跨数据集共享的,因此具有强大的正则化作用,提高了模型的泛化能力。

2、跨样本的关联性考虑

不同于自注意力仅关注单个样本内部的特征关联,外部注意力能够捕捉不同样本之间的潜在关联,为更好的特征表示提供了新的途径。

3、易于集成

由于其简单性,外部注意力可以轻松地集成到现有的基于自注意力的架构中,为各种视觉任务提供性能提升的同时,减少计算和存储开销。

4、代码

import numpy as np
import torch
from torch import nn
from torch.nn import init

# 定义外部注意力类,继承自nn.Module
class ExternalAttention(nn.Module):

    def __init__(self, d_model, S=64):
        super().__init__()
        # 初始化两个线性变换层,用于生成注意力映射
        # mk: 将输入特征从d_model维映射到S维,即降维到共享内存空间的大小
        self.mk = nn.Linear(d_model, S, bias=False)
        # mv: 将降维后的特征从S维映射回原始的d_model维
        self.mv = nn.Linear(S, d_model, bias=False)
        # 使用Softmax函数进行归一化处理
        self.softmax = nn.Softmax(dim=1)
        # 调用权重初始化函数
        self.init_weights()

    def init_weights(self):
        # 自定义权重初始化方法
        for m in self.modules():
            if isinstance(m, nn.Conv2d):
                # 对卷积层的权重进行Kaiming正态分布初始化
                init.kaiming_normal_(m.weight, mode='fan_out')
                if m.bias is not None:
                    # 如果有偏置项,则将其初始化为0
                    init.constant_(m.bias, 0)
            elif isinstance(m, nn.BatchNorm2d):
                # 对批归一化层的权重和偏置进行常数初始化
                init.constant_(m.weight, 1)
                init.constant_(m.bias, 0)
            elif isinstance(m, nn.Linear):
                # 对线性层的权重进行正态分布初始化,偏置项(如果存在)初始化为0
                init.normal_(m.weight, std=0.001)
                if m.bias is not None:
                    init.constant_(m.bias, 0)

    def forward(self, queries):
        # 前向传播函数
        attn = self.mk(queries)  # 使用mk层将输入特征降维到S维
        attn = self.softmax(attn)  # 对降维后的特征进行Softmax归一化处理
        # 对归一化后的注意力分数进行标准化,使其和为1
        attn = attn / torch.sum(attn, dim=2, keepdim=True)
        out = self.mv(attn)  # 使用mv层将注意力特征映射回原始维度
        return out

# 示例代码,创建一个ExternalAttention实例,并对一个随机输入进行处理
if __name__ == '__main__':
    block = ExternalAttention(d_model=64, S=8).cuda()  # 实例化模型并移至CUDA设备
    input = torch.rand(64, 64, 64).cuda()  # 创建随机输入
    output = block(input)  # 通过模型传递输入
    print(output.shape)  # 打印输入和输出的尺寸

你可能感兴趣的:(深度学习算法实现,pytorch,python,人工智能,深度学习)