机器学习:朴素贝叶斯笔记

朴素贝叶斯(Naive Bayes)是一种基于贝叶斯定理的简单概率分类算法,广泛应用于机器学习和数据挖掘中。“朴素” 体现在对特征之间的独立性做出了假设,即一个特征或者一个属性的出现不依赖于其他特征的出现。

目录

基本原理

1.贝叶斯定理

2.朴素的独立性假设

贝叶斯定理

1.简介

2.贝叶斯公式

算法过程

1.训练模型

2.预测类别

类型

注意事项


基本原理

1.贝叶斯定理

朴素贝叶斯算法的核心是贝叶斯定理,即对于给定的样本数据,研究者希望基于已知的特征来预测其所属的类别。

2.朴素的独立性假设

朴素贝叶斯算法对特征之间的独立性作了朴素的假设,即每个特征在给定类别下是相互独立的。该假设简化了条件概率的计算,并使算法更加高效。在实际应用中,该假设往往不准确(因为现实世界的特征之间通常存在联系);但在许多情况下,即使假设不成立,朴素贝叶斯算法仍表现出色。

贝叶斯定理

1.简介

贝叶斯定理是概率论中的一个重要定理,它经常被用于处理条件概率的问题,即在已知某些条件发生的情况下,求另一些条件发生的概率。可以被看作是一种“逆概率”的计算方式。

2.贝叶斯公式

P(A|B) = \frac{ P(B|A) \times P(A) }{P(B)}

P(A)是 事件A 的先验概率或边缘概率,即不考虑任何B因素的情况下 事件A 发生的概率;

P(A|B)是已知 事件B 发生后 事件A 的条件概率,也称为 事件A 的后验概率

P(B|A)是已知 事件A 发生后 事件B 的条件概率,也称为似然度

P(B)是 事件B 的先验概率或边缘概率,也称为标准化常量

贝叶斯定理的关键在于它允许我们从 P(B|A)(直接概率),得到 P(A|B)(逆概率);在多数情况下,直接概率是已知的,而我们需要计算逆概率。公式对逆概率进行了计算:

后验概率 = (似然度 * 先验概率)/标准化常量。

算法过程

P(C_{i}|X) = \tfrac{ P(C_{i}) \times \prod_{j=1}^{n} P(x_{j}|C_{i}) }{P(X)}

X = (x_{1}, x_{2},..., x_{n})

\hat{y} = arg max_{C_{i}}P(C_{i}|X)

1.训练模型

1.1 收集训练数据:收集带有已知类别标签的训练样本数据。每个样本都包含一个特征向量和对应的类别标签;

1.2 计算先验概率:对于每个类别 Ci ,计算先验概率 P(Ci) 。可以通过统计训练数据中每个类别的样本数量,然后除以总样本数量得到;

1.3 计算条件概率:对于每个特征 xj ,计算在每个类别 Ci 下的条件概率 P(xj | Ci) ;

1.4 计算联合概率:每个特征的条件概率 P(xj | Ci) 的乘积。

2.预测类别

2.1 输入特征:一个新的待分类的样本,其中包含特征向量X = (x1, x2,..., xn);

2.2 计算后验概率:训练后的模型根据输入特征,计算该样本在每个类别 Ci 下的后验概率;

2.3 选择最大概率类别:选择具有最高后验概率 P(Ci | X) 的类别作为最终的预测结果。

类型

朴素贝叶斯分类器有多种类型,主要取决于特征的分布假设。最常见的有:

1.高斯朴素贝叶斯:假设特征遵循高斯分布。

2.多项式朴素贝叶斯:适用于描述性特征(如单词计数)。

3.伯努利朴素贝叶斯:适用于二元特征。

注意事项

1.类别先验的影响:类别的先验概率对朴素贝叶斯分类器的影响很大。如果训练数据集中某些类别的样本数量远多于其他类别,模型可能会偏向于这些类别。

2.零概率问题:如果测试数据集中出现了训练数据集中未出现的特征值,会导致计算出的概率为零。这个问题通常通过技术如拉普拉斯平滑(Laplace smoothing)来解决。

3.连续特征的处理:当处理连续数据时,需要假设一个分布(如高斯分布)来估计这些特征的概率。不恰当的分布假设可能会影响模型的性能。

你可能感兴趣的:(机器学习,机器学习,笔记,分类算法)