Hugging Face实战-系列教程20:文本摘要建模实战2 之 Tokenizer处理

Hugging Face 实战系列 总目录

有任何问题欢迎在下面留言
本篇文章的代码运行界面均在Jupyter Notebook中进行
本篇文章配套的代码资源已经上传

文本摘要建模实战1 之 数据清洗
文本摘要建模实战2 之 Tokenizer处理

3 Tokenizer处理

  • 注意需要先pip install sentencepiece这个包(装完之后重启下这个notebook)
  • 应该是mt5这个没有fast实现方法,所以需要借助这个包
from transformers import AutoTokenizer
model_checkpoint = "google/mt5-small"
tokenizer = AutoTokenizer.from_pretrained(model_checkpoint)

文本摘要建模实战1 之 数据清洗
文本摘要建模实战2 之 Tokenizer处理

你可能感兴趣的:(Hugging,Face实战,语言模型,nlp)