朴素贝叶斯

贝叶斯网络是有向无环图

image.png

朴素贝叶斯的优点与缺点:

优点:

  • 容易快速建模,在多分类问题中表现优良;
  • 当特征独立时,朴素贝叶斯分类效果好于逻辑回归等其他分类器,且需要的数据量更少;
  • 相对连续性的数据,它在离散性的数据表现更好;当数据是连续时,数据的假设前提是正态分布;
    缺点:
  • 如果离散型的数据在测试集中未出现,模型会无法给出预测(0频率)。需要使用平滑方法解决,常用的方法为拉普拉斯平滑;
  • 另一方面朴素贝叶斯的预测概率并未能真实反映真正的概率,并不能太当真;
  • 另一个限制是朴素贝叶斯是假设特征独立的。在显示生活中,这几乎是不可能的;

以下是提高朴素贝叶斯模型的方法:

  • 如果连续型的数据特征不是正态分布,需要先把其转换为正态分布;
  • 如果数据出现0概率的,使用拉普拉斯平滑修正;
  • 去除相关性的特征,特别是高度相关的特征,因为这些会导致模型过于强调该类特征的重要性;
  • 朴素贝叶斯分类只有很少的超参数。alpha=1用于平滑, fit_prior=[True|False]是否使用先验概率。priors先验概率值。应把重点放在数据清洗和特征选择
  • ensembling, bagging和boosting等减少方差的提升方法对朴素贝叶斯没有作用。因为朴素贝叶斯没有方差可以减少;

原文:https://www.analyticsvidhya.com/blog/2017/09/naive-bayes-explained/

你可能感兴趣的:(朴素贝叶斯)