朴素贝叶斯

理论基础

  • 条件概率:朴素贝叶斯最核心的部分是贝叶斯法则,而贝叶斯法则的基石是条件概率。贝叶斯法则如下:
  • 词集模型:对于给定文档,只统计某个侮辱性词汇(准确说是词条)是否在本文档出现。
  • 词袋模型:对于给定文档,统计某个侮辱性词汇在本文当中出现的频率,除此之外,往往还需要剔除重要性极低的高频词和停用词。因此,词袋模型更精炼,也更有效。

特殊情况处理

  • 处理概率为0的情况:平滑处理

总结

  • 不同于其它分类器,朴素贝叶斯是一种基于概率理论的分类算法;
  • 特征之间的条件独立性假设,显然这种假设显得“粗鲁”而不符合实际,这也是名称中“朴素”的由来。然而事实证明,朴素贝叶斯在有些领域很有用,比如垃圾邮件过滤;
  • 在具体的算法实施中,要考虑很多实际问题。比如因为“下溢”问题,需要对概率乘积取对数;再比如词集模型和词袋模型,还有停用词和无意义的高频词的剔除,以及大量的数据预处理问题,等等;
  • 总体上来说,朴素贝叶斯原理和实现都比较简单,学习和预测的效率都很高,是一种经典而常用的分类算法。

你可能感兴趣的:(朴素贝叶斯)