反欺诈与异常点检测

1. 反欺诈检检测

1.1 反欺诈检测的难点

        反诈骗实际是个多分类问题,每种不同的诈骗都当做一种单独的类型。除了欺诈手段多样且持续变化,欺诈检测一般还面临以下问题:

    1. 大部分情况下数据是没有标签的,各种成熟的监督学习没有用武之地;

    2. 区分噪音和异常点时难度很大,甚至需要发挥一点点想象力和直觉;

    3. 当多种诈骗数据混合在一起,区分不同的诈骗类型更难;

         根本原因还是因为我们并不了解每一种诈骗定义。

    4. 即使真的有诈骗的历史数据,在有标签的情况下用监督学习,也存在很大的风险。

         用这样的历史数据学出的模型只能检测曾经出现过与历史诈骗相似的诈骗,而对于变种的诈骗和从未见过的诈骗,模型将无能为力。

        在实际情况中,不建议直接用任何监督学习,至少不能单纯依靠一个监督学习模型来奢求检测到所有的诈骗。一般使用无监督学习,且需要领域专家来验证我们的预测,提供反馈,以便于及时的调整模型。

1.2 解决反欺诈问题的可能手段

1.2.1 迁移学习

        源域样本和目标域样本分布有区别,目标域样本量又不够。通过算法缩小边缘分布之间和条件分布下的差异。

1. 基于实例迁移;

2. 基于特征的迁移;

3. 基于模型的迁移。

缺点:需要拥有与当前目标场景相关的源域数据。

1.2.2 专家模型

        根据专家多年从业经验进行定性判断,它根据主观经验进行打分,而不是根据统计分析或者模型算法来进行客观的计算。操作:

1. 凭经验判断特征重要性;

2. 凭经验为变量加权。

缺点:需要大量的行业经验积累,有时候很难让人信服。

1.2.3 无监督算法

        在风控领域中主要使用的是聚类和无监督异常检测。而聚类是发现样本间的相似性,异常检测则是发现样本间的相异性。这里主要介绍聚类算法:

    (1)K-Means

    (2)DBSCAN

        DBSCAN是数据挖掘中最经典基于密度的聚类算法,其核心是:通过某个点 r 邻域内样本点的数量来衡量该点所在空间的密度。和k-means算法的不同的是:

1. 可以不需要事先指定cluster的个数;

2. 可以找出不规则形状的cluster。

    (3)社区发现

        对负样本聚类,将逾期客群描述成欺诈风险信用风险两部分。社区发现算法也是当前识别团伙欺诈的主要手段之一,主要思想是通过知识图谱将小团体筛选出来。在金融领域,聚集意味着风险

2. 异常点检测(Outlier detection)

        又称为离群点检测,是找出与预期对象的行为差异较大的对象的一个检测过程。这些被检测出的对象被称为异常点或离群点。异常点检测应用非常广泛:

1. 信用卡反欺诈

2. 工业损毁检测

3. 广告点击反作弊

4. 刷好评,刷单检测

5. 羊毛党检测

异常点(outlier)是一个数据对象,它明显不同于其他的数据对象。如下图1所示,N1、N2区域内的点是正常数据。而离N1、N2较远的O1、O2、O3区域内的点是异常点。
 

你可能感兴趣的:(机器学习,机器学习,人工智能)