在上一篇文章数据挖掘:探索性数据分析(EDA)中,已经讨论了一些探索性分析的方法,但去敏数据的处理方式和一些多元统计的方法没有做介绍。本篇文章主要讲这两方面。
去敏数据已经在之前有过介绍了,指为了保护数据,消除特征的意义。而对这类数据就无法根据业务知识,进行特征的创建。另外,我们得到的数据一般是原始数据通过变换得到的,变换的方式有很多种。本文主要针对通过乘除对数据进行缩放,然后通过加减对数据进行平移的这种数据还原。
以下是从网上找到的一个案例:
首先介绍下,这个数据的特征都是x1,x2,x3…这种,并没有实际的含义,而我们需要对数据进行探索。从数据的数值来看,也无法得知具体是什么。
数据是经过处理得到的,而我们要做的就是对它进行反向处理。比较常见的是平移,即加/减数据。因此,取数据唯一值unique(),然后利用用下一行数据减去上一行diff(),这样可以消除平移。
缩放是对数据进行乘/除。我们需要找到缩放的系数。经过上步可看到0.04332…这个数有很大的嫌疑。因此,除去它。得到结果如下:
之前是在差值下找到了平移距离和缩放系数。接下来对原始数据进行处理。处理后的数据如下,这样看就比较舒服。而一般处理到这也结束了,想要知道数据的具体含义,一是根据数据的数值和数据赛题,进行猜测。另外还有以下一种方法,通过数据遗漏的信息,得到数据的实际意义。
通过观察数据的取值,可以看到1968。而这大概率是年份。这样我们就知道这列数据是跟年份有关的。说是数据漏洞,这可能是最开始输入数据时,输入错的一个值。比如输入了0,而它转换成了年份,别的数据是输入正确的,转为了别的数值。所以说,这是根据数据的错误得到的有用信息。
以上介绍的只是一种处理方式,虽然有一定的依据,但看着可信度不是那么高,即所有的数据都能这么处理吗?答案当然是不能。不过,它可以作为处理去敏数据的一种手段,有的时候可能会有奇效。
EDA的操作方法有很多,上一篇文章是出于自己对EDA的理解。接下来要介绍的是本人之前在学习中(网上的视频,老师:途索)遇到的一些方法,跟之前的比,有重叠的方法,而也有新的方法,更多的是方法论。
单因素分析中包括:异常值分析,对比分析,结构分析,分布分析。
这个在之前的文章数据预处理中有过说明,不再赘述。
绝对数比较
比较大小。比如均值,标准差,离散系数等。
相对数比较
不用记清这么多的比较的事例,主要要对数据有对比的想法,包括时间,空间,结构占比,强度等。通过对比,发现新知。
主要记住动态即时间。
多因子分析主要包括以下内容:
假设检验与方差检验
相关系数:皮尔逊、斯皮尔曼
回归:线性回归
PCA与奇异值分解
这些分析方法都是统计学中的内容。
复合分析主要包括以下几个方面:
交叉分析
数据分组与钻取
相关分析
因子分析
聚类分析
回归分析
两两数据进行对比。
z/t/卡方/F检验
看p-value大小。关于统计学的内容在统计学专题中再做详细介绍。
数据透视表。
这个在pandas中,用的是pivot_table,对数据进行聚合,更好的观察数据。在Excel中,应用的更加广泛也更加便捷。基本思想就是通过列联表观察数据
连续数据分组:
贴上一张热力图。
对于数据相关性,在上一篇文章中有提到,主要是连续数据和离散数据(有序数据),对于分类数据,也可以用三大相关系数,但效果不是很好。这里介绍Gini系数用于分类。
关于熵的简要说明,具体说明熵的含义会在后续决策树中提到,这里先有个印象,可以用熵来计算相关性。
因子分析,也叫成分分析,从多个属性变量中分析共性。
因子分析是一种特征选择的方法,后续在特征工程中进行说明。
这两个也会在后续模型选择时提到……
本次对去敏数据的一般处理方法和EDA的相关知识进行了补充说明。其中的很多方法都是在特征工程中使用的,而其实特征工程也是深入了解数据的一步,与EDA之间相辅相成。
这篇文章更多的是我对之前学习的一个总结(感觉写的很一般…)。里面很多东西没有进行详细说明,会在之后的文章特征工程和模型选择上进行详细说明。