LSA 主题模型

1、原理

通过对大量的文本集进行统计分析,从中提取出词语的上下文使用含义。技术上通过SVD分解等处理,消除了同义词、多义词的影响,提高了后续处理的精度。

  • 分析文档集合,建立词汇-文本矩阵。
  • 对词汇-文本矩阵进行奇异值分解。
  • 对SVD分解后的矩阵进行降维
  • 使用降维后的矩阵构建潜在语义空间
image.png
  • 第一个小矩阵X是对词进行分类的一个结果,它的每一行表示一个词,每一列表示一个语义相近的词类,这一行中每个非零元素表示每个词在每个语义类中的重要性(或者说相关性)
  • 第二个小矩阵B表示词的类和文章的类之间的相关性
  • 矩阵Y是对文本进行分类的一个结果,它的每一行表示一个主题,每一列表示一个文本,这一列每个元素表示这篇文本在不同主题中的相关性

你可能感兴趣的:(LSA 主题模型)