机器学习中的非平衡分类问题

数据非平衡问题(in-balance)
很多应用中,正负样本是非均衡的,大多数对模型对正负样本比例是敏感的。对训练数据要尽可能的调整至平衡,对分类性能评估也要注意采用特定的方法。

改造分类器的训练数据 —— 过抽样或者欠抽样

具体来说,正负样本失衡的处理方法如下:

  • 负样本 >> 正样本,且量都挺大: 对负样本 欠采样undersampling
  • 负样本 >> 正样本,量都不大=>
    1. 采集更多的数据
    2. 负样本欠采样,正样本过采样oversampling(图像中镜像,旋转等也算)
    3. 修改损失函数,给正样本更大的权重。

代价敏感的学习(cost-sensitive learning)

非均衡分类的性能度量:混淆矩阵,ROC曲线

分类性能度量指标:正确率,召回率及AUC

参考文献
机器学习 非均衡分类问题
机器学习中的非均衡分类问题

你可能感兴趣的:(machine,learning)