Qwen LLM(通义千问大模型 )的词编码原理:字节级别字节对编码(BBPE,Byte - level Byte Pair Encoding)

Qwen LLM(通义千问大模型 )的词编码原理:字节级别字节对编码(BBPE,Byte - level Byte Pair Encoding)

Qwen LLM(通义千问大模型 )的词编码基于字节级别字节对编码(BBPE,Byte - level Byte Pair Encoding),以下从原理、方法、举例展开说明:

一、核心原理

BBPE 本质是子词分词+编码的混合逻辑,核心目标是让文本高效转化为模型可理解的 token(令牌),同时解决多语言(尤其是中文等非拉丁语言)的分词难题,原理分两步:

  1. 字节打底:先把输入文本转成 UTF - 8 字节(每个字节对应 8 位二进制,共 256 种可能 ),初始词汇表直接包含这 256 个字节,相当于从最基础的“字节单元”起步构建词表。
  2. 迭代合并:在大规模训练数据里,反复找最频繁出现的字节对,把它们

你可能感兴趣的:(教学,2024大模型以及算力,2021,AI,python,人工智能,语言模型,自然语言处理,深度学习,prompt)