TensorFlow深度学习实战——Transformer变体模型

TensorFlow深度学习实战——Transformer变体模型

    • 0. 前言
    • 1. BERT
    • 2. GPT-2
    • 3. GPT-3
    • 4. Reformer
    • 5. BigBird
    • 6. Transformer-XL
    • 7. XLNet
    • 8. RoBERTa
    • 9. ALBERT
    • 10. StructBERT
    • 11. T5 和 MUM
    • 12. ELECTRA
    • 13. DeBERTa
    • 14. 进化 Transformer 和 MEENA
    • 15. LaMDA
    • 16. Switch Transformer
    • 17. RETRO
    • 18. Pathways 和 PaLM
    • 相关链接

0. 前言

在 Transformer 模型提出之后,研究人员提出了大量基于 Transformer 的变体模型。本节中,介绍了流行的 Transformer 变体模型。

1. BERT

BERT (Bidirectional Encoder Representations from Transformers) 是 Google AI 研究团队在 2018 年开发的语言表示模型,该模型的重要思想包括:

  • BERT 通过双向自注意力 (bidirectional self-attention) 考虑每个词的上下文,既包括左侧也包括右侧。
  • 训练通过随机掩码输入词元 (token) 进行,并避免循环,以便单词不能间接看到自身。在自然语言处理 (Natural Language Processing, NLP) 中,称为填空 (fill in the blank)。换句话说,预训练任务掩码少

你可能感兴趣的:(深度学习,tensorflow,transformer)