AUC---Binary classifier metric

ref: http://meroa.com/auc-awk-src/
http://alexkong.net/2013/06/introduction-to-auc-and-roc/

ROC曲线

分类器的评价与分类器本身同样重要。把分类器的性能映射到ROC(Receiver Operating Characteristic)空间,是一种常用的评价分类器的方法。ROC曲线横轴是FPR(False Positive Rate 假阳性率,即判断为正例但实际为负例的比例),纵轴是TPR(True Positive Rate 真阳性率,即判断为正例且实际为正例的个数占全部正例的比例)。ROC曲线只对二分类问题有效。而尤其当正负样本不平衡时,这种评价比起准确率更有效(只要想想把垃圾邮件分类器如果把所有邮件都识别为不是垃圾邮件,也可以得到90%以上的准确率,但这没有任何意义)。

AUC的几何意义

AUC(Area Under Curves)指的是ROC曲线下的面积,该指标能较好的概括不平衡样本分类器的性能而成为很多数据挖掘竞赛的判定标准。由于仅有有限个样本,无论训练样本还是测试样本,因此无法获得最精确的ROC曲线,从而无法精确计算AUC。在实际计算中,使用类似微积分的方法,用梯形面积的和去近似。

AUC的物理意义

假设分类器的输出是样本属于正类的socre(置信度),则AUC的物理意义为,任取一对(正、负)样本,正样本的score大于负样本的score的概率。从而我们能够理解对于AUC而言,并不关心具体预测的结果是标签或者概率,也不需要卡什么阈值,只要在预测结果之间有排序即可。

计算方法

http://alexkong.net/2013/06/introduction-to-auc-and-roc/

注意TPR 是除以P, FPR 是除以N

AUC意味着什么

那么AUC值的含义是什么呢?根据(Fawcett, 2006),AUC的值的含义是: > The AUC value is equivalent to the probability that a randomly chosen positive example is ranked higher than a randomly chosen negative example.

这句话有些绕,我尝试解释一下:首先AUC值是一个概率值,当你随机挑选一个正样本以及一个负样本,当前的分类算法根据计算得到的Score值将这个正样本排在负样本前面的概率就是AUC值。当然,AUC值越大,当前的分类算法越有可能将正样本排在负样本前面,即能够更好的分类。

你可能感兴趣的:(AUC---Binary classifier metric)