LLM填坑:训练自己的分词器-Tokenizer 2

 本文记录另外一个例子,例子中涉及如何手动配置config,实现与Huaggingface兼容。

merges.txt

merges文件存放的是训练tokenizer阶段所得到的合并词表结果,就是tokenizer.json中,model.merges下的内容。

tokenizer_config.json

分词器的配置信息,定义了分词器的版本、额外添加的标记(tokens)、结构/代码和模型参数等信息,比如tokenizer_class指定使用的分词器类名以及model_max_length指定模型能够处理的最大序列长度 和 bos_token指定句首的标记等内容。

tokenizer.json

最终的分词器模型文件,包含了分词器的版本号、分词器的截断、填充策略、特殊标记、文本归一化的函数、预分词的策略或方法、分词器模型的类型、词汇表(vocab)和合并规则(merges)等信息。

vocab.json

词表文件,就是tokenizer.json中,model.vocab下的内容。

1:先看完整代码 

你可能感兴趣的:(LLM,&,AIGC,&,VLP,LLM,tokenizer)