机器学习中衡量分类问题的性能指标

目录

      • 1.混淆矩阵
      • 2.Accuracy(正确率或者准确率)
      • 3.Precision(精确率)与 Recall(召回率)
        • 3.1 Precision(精确率)
        • 3.2 Recall(召回率)
        • 3.3 精确率与召回率的关系(F-Measure)
      • 4.Specificity(特异性)

在机器学习领域,当我们想要衡量一个分类模型的优劣时,经常用到一些分析指标,如、精确率、正确率,但看这两个指标往往过于片面,并不能真正反映模型性能的优势。因此,可以引入混淆矩阵来衡量,在此,又得到:召回率(Recall)、 Specificity(特异性)、F1 Score衡量指标。

1.混淆矩阵

在机器学习领域,混淆矩阵(Confusion Matrix),又称为可能性矩阵或错误矩阵。混淆矩阵是可视化工具,特别用于监督学习,在无监督学习一般叫做匹配矩阵。在图像精度评价中,主要用于比较分类结果和实际测得值,可以把分类结果的精度显示在一个混淆矩阵里面。

  • 混淆矩阵的每一列代表了预测类别,每一列的总数表示预测为该类别的数据的数目;
  • 每一行代表了数据的真实归属类别,每一行的数据总数表示该类别的数据实例的数目;每一列中的数值表示真实数据被预测为该类的数目。

机器学习中衡量分类问题的性能指标_第1张图片

  • TP(True Positive,真正例):将真实情况为正例的类型正确地预测为正例
  • FN(False Negative,假反例):将真实情况为正例的类型错误地预测为反例
  • FP(False Positive,假正例):将真实情况为反例的类型错误地预测为正例
  • TN(True Negative,真反例):将真实情况为反例的类型正确地预测为反例

该矩阵可用于易于理解的二类分类问题,但通过向混淆矩阵添加更多行和列,可轻松应用于具有3个或更多类值的问题。
例如有200个样本数据,预测为类1,类2,类3,类4各为50个。分类结束后得到的混淆矩阵为:机器学习中衡量分类问题的性能指标_第2张图片

每一行之和表示该类别的真实样本数量,每一列之和表示被预测为该类别的样本数量。蓝色区域的样本数量越多,表示模型效果越好,性能越高。

混淆矩阵是对分类问题的预测结果的总结。通过计数值汇总正确和不正确预测的样本数,并按每个类进行细分。混淆矩阵显示了分类模型在进行预测时会对哪一部分产生混淆。它可以让您了解分类模型所犯的错误,克服了仅使用准确率评估所带来的局限性。

2.Accuracy(正确率或者准确率)

在这里插入图片描述
准确率从某种意义上得到一个分类器是否有效,但它并不总是能有效的评价一个分类器的工作。当正负样本不均衡的情况下,accuracy作为评判标注不合适。例如一个学校总共1000人,但女生只有10人,如果我们随机挑选一个人判断性别,那可以一直判断为男生。因为如果以accuracy来判断,那我会把所有的学生判断为男生,因为这样效率很高,而accuracy已经达到了99.9%,我们可以认为学校1000人全为男生。对此,我们这个算法并不是我们期待的。

3.Precision(精确率)与 Recall(召回率)

3.1 Precision(精确率)

指的是所有被判定为正类(TP+FP)中,真实的正类(TP)占的比例。
机器学习中衡量分类问题的性能指标_第3张图片

3.2 Recall(召回率)

又称为查全率,召回率表现出在实际正样本中,分类器能预测出多少,即所有真实为正类(TP+FN)中,被判定为正类(TP)占的比例。换句话说,模型正确识别出为正类的样本的数量占总的正类样本数量的比值。一般情况下,Recall越高,说明有更多的正类样本被模型预测正确,模型的效果越好。
机器学习中衡量分类问题的性能指标_第4张图片

3.3 精确率与召回率的关系(F-Measure)

由于精确率与召回率两个指标相互制约,很难兼得,但在大规模数据集合中,我们需要全面考虑,最常见的方法就是F-Measure(又称F-Score),它统计学中用来衡量二分类模型精确度的一种指标。它同时兼顾了分类模型的准确率和召回率。F-Measure 可以看作是是Precision和Recall加权调和平均,它的最大值是 1,最小值是 0。
在这里插入图片描述
其中 β \beta β是参数,P是精确率(Precision),R是召回率(Recall)。
当参数=1时,就是最常见的F1-Measure了:
在这里插入图片描述
研究表明,只有当模型的精准率和召回率都比较高时 F1 Measure 才会比较高。
其中,F1分数认为召回率和正确率同等重要,F2分数认为召回率的重要程度是正确率的2倍,而F0.5分数认为召回率的重要程度是正确率的一半。比较常用的是F1分数(F1 Score),是统计学中用来衡量二分类模型精确度的一种指标。

4.Specificity(特异性)

特异性指标,表示的是模型识别为负类的样本的数量,占总的负类样本数量的比值。
负正类率(False Positive Rate, FPR)计算的是模型错识别为正类的负类样本占所有负类样本的比例,一般越低越好。
机器学习中衡量分类问题的性能指标_第5张图片

你可能感兴趣的:(分类,算法,人工智能,深度学习)