Qwen2学习笔记1:Qwen2模型原理

1. Tokenizer(分词器)

功能:将输入的文本转化为模型可以理解的 input_ids(token ID)。通过查找词汇表,将文本中的每个词汇转换成一个唯一的整数 ID。

代码位置:在 Qwen2Tokenizer 类中定义(此类继承自 PreTrainedTokenizer),负责处理 token 的转化。

from transformers import Qwen2Tokenizer

# 加载Qwen2的tokenizer
tokenizer = Qwen2Tokenizer.from_pretrained("Qwen/Qwen-tokenizer")

# 将文本转化为input_ids
input_ids = tokenizer("Hello world")["input_ids"]

2. Embedding(嵌入层)

功能:将 input_ids 转换为嵌入向量。这些嵌入向量会被作为模型输入,用于表示每个 token 的特征。嵌入层通过查找预定义的嵌入矩阵,找到每个 token 对应的向量。

代码位置:在 Qwen2Model 的初始化方法中,定义了 nn.Embedding,它将词汇表中的 token ID 转换为向量。

 
 

你可能感兴趣的:(学习,笔记)