EDA-数据探索性分析

EDA(Exploratory Data Analysis)-数据探索性分析

什么是EDA

  • 百度发现对它的解释是:指对已有的数据( 特别是调查或观察得来的原始数据 )在尽量少的先验假定下进行探索通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法。
  • 作用是:让人能够了解变量之间的相互关系以及变量与预测值之间的关系,然后进行相应的数据处理,使得数据集进行机器学习或深度学习时,获得较好的效果。

进行EDA的一些方法步骤。

1.简略观察数据(head()+shape);
2.通过describe()来熟悉数据的相关统计量
EDA-数据探索性分析_第1张图片
3.通过info()来熟悉数据类型
EDA-数据探索性分析_第2张图片
4.判断数据缺失和异常
4.1)查看每列的存在nan情况
EDA-数据探索性分析_第3张图片
import missingno as msno #缺失值可视化包
EDA-数据探索性分析_第4张图片
关于缺失值大概处理,一种是删除,二是填充,三是采用树模型训练时,可以不用管。
4.2)异常值检测
当存在“-”“?”等异常符号时,通过info可查看,dtype为object,
然后,以value_counts查看是否有异常符号,以及数量
EDA-数据探索性分析_第5张图片
常见做法,替换成nan
在这里插入图片描述
5.了解预测值的分布
EDA-数据探索性分析_第6张图片
总体分布概况:
无界约翰逊分布
正态分布
对数正态分布
EDA-数据探索性分析_第7张图片
查看skewness and kurtosis
#查看skewness 偏度 分布的对称情况 和 kurtosis 峰度,图像的尖锐程度:峰度越大,表现在图像上面是中心点越尖锐
#skewness = 0,其数据分布形态与正态分布的偏斜程度相同

0,其数据分布形态与正态分布相比为正偏(右偏),有一条长尾巴拖在右边,数据右端有较多的极端值,数据均值右侧的离散程度强
<0表示其数据分布形态与正态分布相比为负偏(左偏),即有一条长尾拖在左边,数据左端有较多的极端值,数据均值左侧的离散程度强
峰度 =0表示该总体数据分布与正态分布的陡缓程度相同;
峰度 >0表示该总体数据分布与正态分布相比较为陡峭,为尖顶峰;
峰度 <0表示该总体数据分布与正态分布相比较为平坦,为平顶峰。
EDA-数据探索性分析_第8张图片
查看预测值的具体频数
EDA-数据探索性分析_第9张图片
因分布不均匀,可进行log变换:
EDA-数据探索性分析_第10张图片
6.特征分为类别特征和数字特征,并对类别特征查看unique分布
对类别特征进行区分时,应结合实际业务场景,不能单纯依赖数据类型,就进行划分。
EDA-数据探索性分析_第11张图片
7.数字特征分析
相关性分析,这里的相关指的是线性相关。为正是正相关,为负为负相关,0为互不相关。
data.corr() #相关系数矩阵,即给出了任意两个变量之间的相关系数
data.corr()[u’好’] #只显示“好”与其他感情色彩的相关系数
data[u’好’].corr(data[u’哭’]) #两个感情色彩的相关系数
EDA-数据探索性分析_第12张图片
查看几个特征的偏度和峰值
每个数字特征的分布可视化
EDA-数据探索性分析_第13张图片
数字特征相互之间的关系可视化
EDA-数据探索性分析_第14张图片
多变量互相回归关系可视化
参考网址:https://www.jianshu.com/p/6e18d21a4cad
8.类型特征分析
unique分布
类别特征箱形图可视化
EDA-数据探索性分析_第15张图片
类别特征的小提琴图可视化
EDA-数据探索性分析_第16张图片
类别特征的柱形图可视化类别
EDA-数据探索性分析_第17张图片
特征的每个类别频数可视化(count_plot)
EDA-数据探索性分析_第18张图片
9.用pandas_profiling生成数据报告
EDA-数据探索性分析_第19张图片
参考文章:https://tianchi.aliyun.com/notebook-ai/detail?spm=5176.12281978.0.0.6802593a7ZAMVe&postId=95457

你可能感兴趣的:(机器学习)