利用gensim生成词袋模型(基于频次和基于TF-IDF)

前言

参考文献:胡盼盼编著. 自然语言处理从入门到实战[M]. 中国铁道出版社, 2020.

最近在学习文本表示的一种最简单方式——词袋模型,书中给出了使用gensim生成词袋模型的代码,原代码就来自于这本书,我加了一些注释,方便理解代码。

一、引入库

from gensim.models import TfidfModel
from gensim.corpora import Dictionary
import jieba

二、准备数据

raw_texts = ['你站在桥上看风景','看风景的人在楼上看你',

你可能感兴趣的:(文本表示,自然语言处理,python,机器学习)