MMAction2重要的几个配置参数

embed_dims(全称 embedding dimensions)是指每个 patch(块)或特征的通道数/维度,是 Transformer 或 Swin Transformer 等模型中最核心的特征表示维度。
embed_dims 必须能被 num_heads 整除
具体解释

  • 在 Swin Transformer、ViT 等模型中,输入视频/图片会被切分成小块(patch),每个 patch 会被投影(线性变换)到一个高维空间,这个空间的维度就是 embed_dims。
  • 后续所有的注意力、MLP 等操作,都是基于这个维度进行的。

举例

  • 如果 embed_dims=96,每个 patch 会被编码成 96 维的特征向量。
  • 如果 embed_dims=32,每个 patch 会被编码成 32 维的特征向量。

影响

  • embed_dims 越大,模型表达能力越强,但参数量和计算量也越大。
  • embed_dims 越小,模型更轻量,但表达能力会下降。

你可能感兴趣的:(vscode)