【Strip-MLP论文解读】

Strip-MLP

  • Abstract
  • Introduction
  • Method——Overall Architecture
    • Patch Embedding
    • Patch Merging
    • Mixing Block
      • Strip Mixing Block
        • Strip MLP Layer:
        • Cascade Group Strip Mixing Module(CGSMM):
        • Local Strip Mixing Module(LSMM):
      • Channel Mixing Block
    • Head Layer
  • Ablation Studies
    • The effect of Strip Width in Strip MLP
    • Effects of Patch Number in CGSMM
    • Cascade vs. Parallel Architecture of GSML
    • Roles of CGSMM & LSMM
  • Conclusion

Abstract

MLP核心模块——Token interaction operation
作用:实现不同空间位置间信息交换和聚合

面临的挑战——Token交互在空间维度上的能力高度依赖于特征映射
的空间分辨率。然而深层MLP模型,特征被下采样到一个小的空间尺寸

解决:本文创新点——Strip-MLP,从三个方面丰富Token交互:

第一,Strip MLP layer:一种新的MLP范式,允许令牌以交叉条形的 方式与其他令牌交互,使行(或列)中的令牌能够为相邻但不同的行
(或列)中的信息聚合做出贡献。(并使令牌的每一行或列对其他行或列的贡献不同)

第二,Cascade Group Strip Mixing Module(CGSMM):允许令牌以补
丁内和交叉补丁的方式更有效地交互,克服了空间特征尺寸小导致的 性能下降问题。

第三,Local Strip Mixing Module(LSMM):来提高本地区域的令牌交互能力。

Introduction

CNN仍是计算机视觉最受欢迎的网络,并完成了一系列的突破。
CNN聚合局部区域的特征,但长期依赖关系不足。

Transformer模型的自注意力引入到计算机视觉领域后,虽然其变体
以实现了CNN的SOTA的水平,但也引入了更高的计算复杂度在计算注意
力图上。
一些文章指出注意力机制是非必须的并提出了一种更简单的模型——
MLP-based models,使用多层感知机(MLP)处理数据。

典型深度MLP网络:
MLP-Mixer: 通过两种类型的MLP层,分别在每个token的不同通道之间
混合信息和使每个空间令牌在单个MLP层中与其他令牌(整个图像)交互。
缺点:
引入更多的参数和更高的计算复杂度,容易过拟合。

Sparse MLP(SMLP)和Vision Permutator(ViP): 提出了类似的并行结构层,
沿轴向应用一维 MLP,参数分别在行或列之间共享。
缺点:
在空间行(或列)上的交互token时,令牌交互能力高度依赖于特征空间大小。

理解:在空间上token交互,随着下采样特征图大小逐渐减小,即token数量在空间上也随之减少,因此交互能力就降低。

你可能感兴趣的:(计算机视觉,图像处理)