Blei 先生是LDA的鼻祖,先放图镇住,阿弥陀佛~
1、《general introduction to topic modeling》
主要介绍了topic modeling主要用于解决什么问题(search、browse、orginaze)、LDA(latent dirichlet allocation)、概率模型,lda预测隐形变量之类的,介绍了LDA的基本原理(要读懂,需要强大的数学基础),我只是粗略的读了一下
PS.想要了解LDA的数学基础,推荐一篇文章《LDA数学八卦》
2、《topic models》by DAVID M. BLEI & JOHN D. LAFFERTY
主要介绍:
chapter 2:介绍LDA以及使用后验分布
chapter 3: 如何用平均场逼近后验分布的参数(实际上使用Gibbs sampling的人比较多)
chapter 4:两种变形的LDA主题模型,Dynamic Topic models(DTM)和correlated topic model(CTM),分别用来发现主题之间关系和主题随时间变化
论文中提到的有用的一点是:使用TFIDF对词汇集选取top K词汇效果比较好,计算量也下降了
3、《Dynamic Topic Models》 by DAVID M. BLEI & JOHN D. LAFFERTY
粗略看了一遍,数学基础比较薄弱,实在看不懂关于概率分布的公式,大概意思是:每年articals的topic源自于上一年topic的演变,时间刻度参与体现在两点:
一是用含有高斯噪音的状态空间模型代替LDA中的Dirichlet分布;二是用平均α的逻辑正态分布代替LDA中的Dirichlet分布
4、《Online LDA》 by Matthew D. Hoffman & David M. Blei & Francis Bach
粗略看了一遍,关于数学方面还是有很大欠缺,导致看不懂。Online LDA更多的考虑数据量很大的情况,单纯使用变分贝叶斯(VB)计算量会比较复杂,针对这个问题,blei提出使用online VB,基于online stochastic optimization(随机优化),文本以stream的方式输入,用完就丢掉,不需要存储和收集。
推荐一篇总结的很好的博文《基于LDA的Topic Model变形》,介绍Blei的一些相关论文
http://blog.csdn.net/hexinuaa/article/details/6021069
如果想继续深入了解,可以去看看Blei列出来的关于Topic Modeling的参考书目
http://www.cs.princeton.edu/~mimno/topics.html