TPAMI 2023:Constructing Stronger and Faster Baselines for Skeleton-based Action Recognition

Constructing Stronger and Faster Baselines for Skeleton-based Action Recognition

  • Abstract
  • 1.INTRODUCTION
  • 2.RELATED WORK
    • 2.1Efficient Models
  • 3.PRELIMINARY TECHNIQUES
    • 3.1 Data Preprocessing
    • 3.2 Separable Convolution
  • 4 EFFICIENTGCN
    • 4.1 Model Architecture
    • 4.2 Block Details
    • 4.3 Scaling Strategy
    • 4.4 Spatial Temporal Joint Attention
    • 4.5 Discussion
  • 5 EXPERIMENTAL RESULTS
    • 5.1 Ablation Studies
      • 5.1.1 Comparisons of TC Layers
      • 5.1.2 Comparisons of Attention Modules
    • 5.1.3 Necessity of Data Preprocessing
    • 5.1.4 Necessity of Early Fused Architecture
    • 5.2 Comparisons of Compound Scaling Strategies
    • 5.3 Comparisons with SOTA Methods
  • 6 CONCLUSION

Abstract

针对该任务的复杂性和计算代价过高的情况,提出了一种新的有效的图卷积网络基线模型EfficientGCN,并设计了一种复合缩放策略,用于扩展模型的宽度和深度,最终获得一个高准确性、可训练参数较少的高效GCN基线模型。

1.INTRODUCTION

TPAMI 2023:Constructing Stronger and Faster Baselines for Skeleton-based Action Recognition_第1张图片
图1 整体框架

首先,本文构建了一个早期融合的多输入分支(MIB)架构,从骨架序列中关节的空间配置和时间动态中捕获丰富的特征。MIB 旨在减少多流 GCN 模型的模型参数和计算成本,以实现更有效的基于骨架的动作识别。

具体来说,在整个网络的早期阶段融合了关节位置(相对和绝对)、运动速度(一个或两个时间步长)和骨骼特征(长度和角度)三个输入分支,而不是在大多数多流GCN模型中传统后期融合。最优融合阶段是通过穷举搜索选择的。

其次,除了 ST-GCN中提出的基本层之外,还在 CNN 中扩展了四种卷积层,即瓶颈层 (BottleLayer) 、可分离层 (SepLayer)、扩展可分离层 (EpSepLayer) 和沙漏层 (SGLayer) 到 GCN 网络,用于提取时间动态并压缩模型大小。这四个层可以明显减少训练中参数调整成本的数量,并在测试中加速模型推理。

第三,为了确定每个块的结构超参数,采用了复合缩放方法。修改了原始缩放策略以适应图数据,通过删除分辨率缩放因子并重新构建宽度和深度因子之间的约束。这种策略以有效的方式提高了模型的性能。

最后,提出了关节注意(ST-JointAtt),并将其插入到模型的每个块中。该注意力模块旨在从整个骨架序列中找到最基本的关节,最终增强了模型提取判别特征的能力。与其他注意力模块(如 STC-attention (STCAtt) 和 Part-wise Attention (PartAtt) )相比,这个新模块共同处理空间和时间注意力,而 STCAtt 是异步的,PartAtt 忽略了时间差异。此外,与之前的 PartAtt 模块相比ST-JointAtt 模块无需手动划分骨架图中的部分,从而消除了在每个部分关节上设计适当的池化规则的需要。

2.RELATED WORK

2.1Efficient Models

模型效率通常由可训练参数的数量和每秒浮点运算 (FLOPs) 表示。

MobileNet 的模型家族主要通过可分离卷积切割模型大小,它将标准卷积分解为单独应用于每个通道的深度卷积和 1×1 逐点卷积来组合深度卷积的输出。为了进一步确定神经网络中的结构超参数,提出了复合缩放来构建effecentnet模型。

3.PRELIMINARY TECHNIQUES

3.1 Data Preprocessing

你可能感兴趣的:(论文相关,transformer,深度学习,人体行为识别)