LDA模型参数设置,训练效果较好

前言:写小论文用到lda主题模型,在网上找了一圈没有找到训练效果较好的模型参数示例。为了写出小论文做了很多次实验,达到了实验中最好的效果,故贴出
代码

from gensim.models import LdaModel

lda = LdaModel(corpus=corpus, id2word=dictionary, num_topics=size_lda, alpha="auto",eta='auto',passes=20)

其中,corpus,id2word,num_topics不多解释,主要是最后设置了alpha,eta,passes。
alpha是文档-主题分布的先验。默认是symmetric,此时可以显式地为它提供一个字母数组;将其设置为’auto’,它将从数据中学习优先级。
eta是主题-词分布的先验。同上
passes是训练过程中穿过语料库的次数。默认为1,穿过次数越多效果越好(当然,过多可能会过拟合?不造)前面两个设置为auto就好,这一个需要根据你的语料库自己实验一下,可能你的语料库设置passes=10就很好了

你可能感兴趣的:(NLP,中文数据处理,深度学习,机器学习,人工智能)