Transformer学习资料

Transformer学习资料_第1张图片

  1. ​核心论文​

    • 原论文标题:《Attention Is All You Need》(Transformer原始论文)
  2. ​Transformer学习资源​

    • 视频教程:
      • B站中文视频:Transformer详解
    • 中文教程:
      • GitHub项目:learn-nlp-with-transformers
    • 技术解析:
      • 图解Transformer(Encoder-Decoder结构):Illustrated Transformer
      • 图解GPT模型:Illustrated GPT-2
    • 趣味实践:
      • Tom Yeh教授的Excel手绘神经网络:AI-by-Hand-exercises


关于Q、K、V的理解

在Transformer模型中,Q、K、V分别代表Query(查询)、Key(键/线索)和Value(值/答案)。它们是自注意力机制(Self-Attention Mechanism)中的核心组成部分,用于计算输入序列中各个元素之间的相关性。

  • Query (Q):查询向量,用于表示当前需要关注的元素。可以理解为“我想要找什么”。
  • Key (K):键向量,用于表示其他元素的特征。可以理解为“其他元素能提供什么信息”。
  • Value (V):值向量,用于表示其他元素的实际内容。可以理解为“其他元素具体是什么”。

在自注意力机制中,首先通过线性变换将输入矩阵X分别转换为Q、K、V。然后,通过计算Q和K的点积(Dot-Product)来得到注意力分数,这些分数表示当前元素与其他元素的相关性。最后,使用这些分数对V进行加权求和,得到最终的输出。

你可能感兴趣的:(LLM,AI,程序院,transformer,深度学习,人工智能)