数据仓库与数据挖掘——模型评估指标

一、混淆矩阵

1、基本概念

        混淆矩阵(confusion matrix),又称为可能性表格或是错误矩阵。在机器学习领域是一种特定的矩阵用来呈现算法性能的可视化效果,通常是监督学习(非监督学习,通常用匹配矩阵:matching matrix)。其每一列代表预测值,每一行代表的是实际的类别。这个名字来源于它可以非常容易的表明多个类别是否有混淆(也就是一个class被预测成另一个class)。

数据仓库与数据挖掘——模型评估指标_第1张图片

2、计算方法

数据仓库与数据挖掘——模型评估指标_第2张图片

数据仓库与数据挖掘——模型评估指标_第3张图片

数据仓库与数据挖掘——模型评估指标_第4张图片

数据仓库与数据挖掘——模型评估指标_第5张图片

3、关键源码展示

数据仓库与数据挖掘——模型评估指标_第6张图片

数据仓库与数据挖掘——模型评估指标_第7张图片

二、混淆矩阵的二级指标与三级指标

1、基本概念

        预测性分类模型肯定是希望越准越好。那么对应到混淆矩阵中是希望TPTN的数量大,而FPFN的数量小。所以当我们得到了模型的混淆矩阵后,就需要去看有多少观测值在第二、四象限对应的位置,这里的数值越多越好;反之,在第一、三象限对应位置出现的观测值肯定是越少越好。

        但是,混淆矩阵里面统计的是个数,有时候面对大量的数据,光凭算个数,很难衡量模型的优劣。因此混淆矩阵在基本统计结果上又延伸了混淆矩阵的二级指标。

数据仓库与数据挖掘——模型评估指标_第8张图片

        混淆矩阵的三级指标一般指[−],又称平衡[]分数,被定义为精确率和召回率的调和平均数:

[]=[(1+^2)]/(^2*+)

        一般取1,有时也会取20.5。

2、关键源码展示

数据仓库与数据挖掘——模型评估指标_第9张图片

三、ROC曲线

1、基本概念

        接受者操作特性曲线(receiver operating characteristic curve,简称ROC曲线),又称为感受性曲线(sensitivity curve)。得此名的原因在于曲线上各点反映着相同的感受性,它们都是对同一信号刺激的反应,只不过是在几种不同的判定标准下所得的结果而已。

        通俗来说,ROC曲线是一个概率曲线,显示出不同的阈值下TPRFPR的关系,从本质上将“信号”与“噪声”分开。其中纵轴为TPR TPR 越大,预测正类中的实际正类越多;横轴为FPRFPR越大,预测正类中实际负类越多。

2、原理演示

数据仓库与数据挖掘——模型评估指标_第10张图片

数据仓库与数据挖掘——模型评估指标_第11张图片

数据仓库与数据挖掘——模型评估指标_第12张图片

数据仓库与数据挖掘——模型评估指标_第13张图片

数据仓库与数据挖掘——模型评估指标_第14张图片

数据仓库与数据挖掘——模型评估指标_第15张图片

数据仓库与数据挖掘——模型评估指标_第16张图片

数据仓库与数据挖掘——模型评估指标_第17张图片

数据仓库与数据挖掘——模型评估指标_第18张图片

数据仓库与数据挖掘——模型评估指标_第19张图片

3、关键源码展示

数据仓库与数据挖掘——模型评估指标_第20张图片

四、AUC面积

1、基本概念

        AUC(Area Under Curve)面积被定义为ROC曲线下的面积,取值范围一般在0.51之间,否则分类器效果就很差。测试样例越多,得到的ROC曲线越平滑;曲线面积越大,分类器效果更好。

数据仓库与数据挖掘——模型评估指标_第21张图片

2、关键源码展示

数据仓库与数据挖掘——模型评估指标_第22张图片

你可能感兴趣的:(算法,数据挖掘,人工智能)