Training-Free Transformer Architecture Search WithZero-Cost Proxy Guided Evolution(预览版本)

Training-Free Transformer Architecture Search WithZero-Cost Proxy Guided Evolution(预览版本)_第1张图片摘要

Transformers 已表现出卓越的性能,然而,其架构设计是一个耗时的过程,需要专业知识和反复试验。因此,研究通过 Transformer 架构搜索 (TAS) 自动搜索高性能 Transformers 的有效方法是值得的。为了提高搜索效率,基于无训练代理的方法已在神经架构搜索 (NAS) 中得到广泛采用。然而,这些代理被发现不足以很好地推广到 Transformer 搜索空间,这一点已被多项研究和我们自己的实验证实。本文提出了一种有效的 TAS 方案,称为零成本代理引导进化的 Transformer 架构搜索 (T-Razor),可实现卓越的效率。首先,通过理论分析,我们发现多头自注意力 (MSA) 的突触多样性和多层感知器 (MLP) 的显着性与相应 Transformers 的性能相关。突触多样性和突触显着性的特性促使我们引入突触多样性和显着性的等级,表示为DSS ++,用于评估和排名Transformers。DSS ++结合了采样Transformers之间的相关性信息,为突触多样性和突触显着性提供统一的分数。然后,我们提出了一种由DSS ++引导的分块进化搜索来找到最佳Transformers。DSS ++确定突变和交叉的位置,增强了探索能力。实验结果表明,我们的T-Razor在四个流行的Transformer搜索空间中的表现与最先进的手动或自动设计的Transformer架构相媲美。显着的是,T-Razor提高了不同Transformer搜索空间中的搜索效率,例如,将所需的GPU天数从超过24天减少到不到0.4天,并且优于现有的零成本方法。我们还将 T-Razor 应用于 BERT 搜索空间,发现搜索到的 Transformers 在多个神经语言处理 (NLP) 数据集上取得了具有竞争力的 GLUE 结果。这项工作提供了对无需训练的 TAS 的见解,揭示了根据不同块的属性评估 Transformers 的实用性。

你可能感兴趣的:(transformer,深度学习,人工智能)