混淆矩阵(confusion matrix),又称为可能性表格或是错误矩阵。在机器学习领域是一种特定的矩阵用来呈现算法性能的可视化效果,通常是监督学习(非监督学习,通常用匹配矩阵:matching matrix)。其每一列代表预测值,每一行代表的是实际的类别。这个名字来源于它可以非常容易的表明多个类别是否有混淆(也就是一个class被预测成另一个class)。
预测性分类模型肯定是希望越准越好。那么对应到混淆矩阵中是希望TP与TN的数量大,而FP与FN的数量小。所以当我们得到了模型的混淆矩阵后,就需要去看有多少观测值在第二、四象限对应的位置,这里的数值越多越好;反之,在第一、三象限对应位置出现的观测值肯定是越少越好。
但是,混淆矩阵里面统计的是个数,有时候面对大量的数据,光凭算个数,很难衡量模型的优劣。因此混淆矩阵在基本统计结果上又延伸了混淆矩阵的二级指标。
混淆矩阵的三级指标一般指[−],又称平衡[]分数,被定义为精确率和召回率的调和平均数:
[]=[(1+^2)∗]/(^2*+)
一般取1,有时也会取2或0.5。
接受者操作特性曲线(receiver operating characteristic curve,简称ROC曲线),又称为感受性曲线(sensitivity curve)。得此名的原因在于曲线上各点反映着相同的感受性,它们都是对同一信号刺激的反应,只不过是在几种不同的判定标准下所得的结果而已。
通俗来说,ROC曲线是一个概率曲线,显示出不同的阈值下TPR与FPR的关系,从本质上将“信号”与“噪声”分开。其中纵轴为TPR ,TPR 越大,预测正类中的实际正类越多;横轴为FPR,FPR越大,预测正类中实际负类越多。
AUC(Area Under Curve)面积被定义为ROC曲线下的面积,取值范围一般在0.5与1之间,否则分类器效果就很差。测试样例越多,得到的ROC曲线越平滑;曲线面积越大,分类器效果更好。