ADASYN: 自适应综合过采样

 1. 引言 

     不平衡数据一直是数据挖掘领域最具挑战的几个问题之一。由于多数类的样本在总样本占据的比重太多,少数类样本被忽视,训练出来的分类器更偏向于多数类导致分类器的性能下降。在实际生活中更是有着举足轻重的影响,比如电路电压急速上升,没有发生危险的情况预测报警没有什么影响,如果发生了危险还没有预测报警的话危害极大。

2.研究现状

   Synthetic Minority Oversampling Technique是最早提出来的算法,我的理解就是它是一种插值法,在少数类样本之间进行插值。但是这种算法可能会在多数类样本中间插值出一个少数类样本导致类别重叠。

3.ADASYN

  本文介绍的是 ADASYN: 自适应综合过采样方法。

算法步骤如下:

(1)计算不平衡度

记少数类样本为ms,多数类为ml,则不平衡度为 d = ms / ml,则d∈(0,1]。(作者在这里右边用了闭区间,我觉得应该用开区间,若是d = 1,则少数类与多数类样本数量一致,此时数据应该平衡的)

(2)计算需要合成的样本数量

G = (ml - ms)* b,b∈[0,1],当b = 1时,即G等于少数类和多数类的差值,此时合成数据后的多数类个数和少数类数据正好平衡

(3)对每个属于少数类的样本用欧式距离计算k个邻居,△为k个邻居中属于多数类的样本数目,记比例r为r = △ / k,r∈[0,1]

(4)在(3)中得到每一个少数类样本的 ri ,

              用计算每个少数类样本的周围多数类的情况

(5)对每个少数类样本计算合成样本的数目

(6)在每个待合成的少数类样本周围k个邻居中选择1个少数类样本,根据下列等式进行合成


重复合成直到满足需要步骤(5)合成的数目为止。

ADASYN: 自适应综合过采样_第1张图片

ADASYN: 自适应综合过采样_第2张图片




你可能感兴趣的:(机器学习)