主题模型挖掘。一级和二级

import pandas as pd
import nltk
import math
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
from gensim.models import LdaModel
from gensim.corpora import Dictionary

# 下载NLTK资源(如果没有的话)
nltk.download('stopwords')
nltk.download('punkt')

# 初始化NLTK停用词集合
stop_words = set(stopwords.words('english'))

# 读取测试文本xlsx文件
df = pd.read_excel('测试数据.xlsx', header=0, names=['content'])


# 将文本转换为小写并去除停用词
def preprocess_text(text):
    # 检查是否是NaN值,如果是,则返回一个空字符串
    if isinstance(text, float) and math.isnan(text):
        return ""
    # 将文本转换为小写
    #text = text.lower()
    # 分词并去除停用词
    words = word_tokenize(text)
    words = [word for word in words if word not in stop_words]
    # 重新组合成文本
    cleaned_text =

你可能感兴趣的:(python)