【论文分享】TCCT: Tightly-coupled convolutional transformer on time series forecasting

TCCT:时间序列预测的紧耦合卷积 Transformer
提高 Transformer 的效率和增强局部性,将 Transformer 与 CNN 进行了不同程度的结
合。但是,它们的组合是松耦合的,并没有充分利用 CNN。 为了解决这个问题,我们提出了紧耦合卷积变换器(TCCT)的概念和三个将变换后的
CNN 架构应用到 Transformer 中的 TCCT 架构。 只有在Transformer模型中应用特定的变换后的CNN架构,才能将Transformer和CNN
紧密结合,从而充分发挥它们的优势。
本文解决方案:融合了,的扩张因果卷积和的直通机制

  1. 基础上提出了,降低内存复杂度,提高预测精度,将 与 self-attention 融合,自注意力机制的计算成本减少 30%,内存使用减少 50%,
    同时达到或超过预测精度。
  2. 扩张因果卷积用于以指数增大感受野,通过用扩张因果卷积层替换规范卷积层来修
    改提出的蒸馏操作,以获得指数感受野增长。
  3. 直通机制替代原来的蒸馏机制,将直通机制应用于自注意力块堆栈有助
    于类 Transformer 模型获得更细粒度的信息(fine-grained information),而额 外的计算成本可忽略不计。从而提高计算效率和降低内存复杂度。
    【论文分享】TCCT: Tightly-coupled convolutional transformer on time series forecasting_第1张图片

:蓝色梯形内部包括一个主编码器,堆叠了三个 块(蓝色) 和两个额外的编码器,输入更短,注意力块更少。绿色梯形内的卷积层(绿色)和最大池化 层用于连接每两个自注意力块。三个编码器输出的三个特征图全部融合,然后交给解码器。
:的解码器与标准的解码器相比几乎没有变化。只有被掩蔽 的自注意力块被掩蔽的 块替换。
【论文分享】TCCT: Tightly-coupled convolutional transformer on time series forecasting_第2张图片

输入(蓝色)分为两部分。第一个(绿色)通过 A 层传播,一个 1×1 卷积层,而另一 个(红色)通过块 B 传播,一个自注意力块。最后将两个部分的输出连接在一起,作为整个 块的最终输出。
【论文分享】TCCT: Tightly-coupled convolutional transformer on time series forecasting_第3张图片

的目的是为了缓解 − 机制的内存瓶颈和计算效率问题。降 低了 − 机制的内存流量和时间复杂度。假设一个规范的自注意力块的输入和 输出维度都是并且只有一个输入标记。
(a)所示,一个自注意力块包含四个线性投影层,其输入和输出维度均为(查询、键、 值、投影)。因此,内存占用为4!
然而,假设将输入维度分成两半,的第一部分只有一个线性 投影层,而第二部分有四个。相应的架构如图(b)所示。因此,一个块的内存
占用是(4 + 1)(")!,是典型自注意力块的31.25%。 !

扩张因果卷积: 与结合使用时,扩张的因果卷积层也可以作为一个过渡层,用于融合来自前块的两个部分的特征图。

直通机制 Passthrough mechanism
Yolo系列目标检测CNN网络提出的直通机制(passthrough mechanism),从早期网络 中获取特征图并将它们与最终特征图合并以获得更细粒度的信息。
【论文分享】TCCT: Tightly-coupled convolutional transformer on time series forecasting_第4张图片

假设一个编码器堆叠了个自注意力块,那么每个自注意力块都会产生一个特征图。假 设和扩张因果卷积已应用于该编码器,则第( = 1,2…)个特征图的长度,为了连接所有不同尺度的特征图,第个特征图被等价地按长度分割成2 %&,这样,所有的特征图都可以按维度连接起来。但是,连接的特征图 的维度为(2 − 1) × ,因此应采用过渡层来确保整个网络导出适当维度的特征图。
【论文分享】TCCT: Tightly-coupled convolutional transformer on time series forecasting_第5张图片

只有一个编码器,意味着它没有使用完全蒸馏操作,而是用直通机制代替。
其他与架构配合。例如,为了将架构与相结合,图中 的(掩码)自注意力块将被(掩码) 自注意力块替换,其他架构保 持不变。
【论文分享】TCCT: Tightly-coupled convolutional transformer on time series forecasting_第6张图片

堆叠三个自注意力块的单个编码器与所有三种架构协作。
每个块(浅黄色)中结合与的典型架构 − (红色)。
在每两个块之间,通过一个扩张因果卷积层和一个最大池化层(绿色)连 接。 前一个 − 块的输出特征图在传播通过这两层后缩小到其长度的一半,反 映了初始中的情况,但扩大了感受野。
三个 − 输出的三个 p 都通过 hh机制(灰色) 融合,得到更细粒度的信息。
最后添加一个过渡层(绿色),以将适当维度的特征图导出到解码器。

你可能感兴趣的:(机器学习,深度学习,transformer,深度学习,人工智能)