说明近十年来的变化——ViT的引入改变了CV的基本模式。同样,医学图像领域也发生了一样的变化,最具影响力的网络结构——U-Net已和Transformer相结合而被重新设计。最近,卷积模型在视觉中的有效性正在被重新研究,比如一些开创性的工作——ConvNeXt,它将ResNet的性能提升到了Swin Transformer一样甚至更高的水平!
由此获得灵感,Author打算改进一个纯卷积的UNet模型,使之与基于Transformer的模型性能相同,如Swin-Unet或UCTransNet。
先研究了Transformer模型相对于卷积模型的优点:
– 研究问题?——Transformer模型相对于卷积模型的优点
先研究了基于Transformer的UNet的优点——“long-range dependencies”(远程依赖)和 “cross-level skip connections”(跨层跳跃连接)
– 什么是"long-range dependencies"(远程依赖)?
在序列数据(如文本、时间序列等)中,某个位置的元素与较远位置的元素之间存在的依赖关系。这种依赖关系在自然语言处理(NLP)、语音识别、时间序列分析等领域中非常常见。
例如,在句子“The cat, which was sitting on the mat, was very sleepy.”中,单词“cat”与单词“sleepy”之间存在长程依赖关系,因为“cat”的状态(sitting on the mat)直接影响了“sleepy”的描述。
在处理长程依赖时,传统的循环神经网络(RNN)可能会遇到梯度消失或梯度爆炸的问题,导致难以捕捉到远距离的依赖关系。为了解决这个问题,一些更先进的模型如长短期记忆网络(LSTM)和门控循环单元(GRU)被提出,它们通过引入门控机制来更好地处理长程依赖。此外,Transformer模型也是一种有效处理长程依赖的架构(详细计算方式见链接),它通过自注意力机制(self-attention mechanism)直接计算序列中任意两个位置之间的关系,从而能够更好地捕捉长程依赖。
– 什么是"cross-level skip connections"(跨层跳跃连接)?
“cross-level skip connections”(跨层跳跃连接)是一种在深度神经网络中使用的连接方式,特别是在卷积神经网络(CNN)和深度残差网络(ResNet)中。这种连接方式允许信息从网络的某一层直接跳过中间的若干层,传递到更深层的网络中。
传统的深度神经网络中,每一层的输入都是前一层的输出,这样信息逐层传递,可能会导致梯度消失或梯度爆炸的问题,尤其是在非常深的网络中。跨层跳跃连接通过引入从浅层到深层的直接连接,使得网络可以更容易地学习到恒等映射(identity mapping),从而缓解了梯度问题,使得训练更深的网络变得更加容易。
例如,在ResNet中,跨层跳跃连接(也称为残差连接或shortcut connections)允许输入直接跳过一些层,与这些层的输出相加,形成所谓的残差块(residual block)。这种设计使得网络可以学习到残差函数(即输入与输出之间的差异),而不是直接学习输出,从而提高了网络的训练效率和性能。
总结来说,跨层跳跃连接通过提供从浅层到深层的直接路径,增强了信息的流动,有助于训练更深的网络,并且在许多计算机视觉任务中取得了显著的性能提升。
– 研究方法——用卷积的方式模拟Transformer模型的两个优势操作
Author提出了