数据挖掘--task2数据分析之EDA探索性数据分析

一、前言

这是菜鸟笔者的第一篇学习笔记博客,因为刚刚上手数据挖掘的课程,可能在笔记中会出现错误,若发现有什么错误的欢迎来指导哦!!!
来源是Datawhale与天池合作的《零基础入门数据挖掘-二手车交易价格预测》的task2数据分析的学习内容。
链接:Datawhale数据的探索性分析(EDA)

二、EDA的意义与目的

(1)EDA是指对已有的数据(特别是调查或观察得来的原始数据)在尽量少的先验假定下进行探索,通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法。。
(2)EDA的价值主要在于熟悉数据集,了解数据集,对数据集进行验证来确定所获得数据集可以用于接下来的机器学习或者深度学习使用;了解数据集后了解变量间的相互关系以及变量与预测值之间的存在关系。

三、内容介绍

1、载入各种数据科学以及可视化库

数据挖掘--task2数据分析之EDA探索性数据分析_第1张图片

2、载入数据

数据挖掘--task2数据分析之EDA探索性数据分析_第2张图片
数据挖掘--task2数据分析之EDA探索性数据分析_第3张图片
数据挖掘--task2数据分析之EDA探索性数据分析_第4张图片
数据挖掘--task2数据分析之EDA探索性数据分析_第5张图片

3、总览数据概况

数据挖掘--task2数据分析之EDA探索性数据分析_第6张图片
数据挖掘--task2数据分析之EDA探索性数据分析_第7张图片
数据挖掘--task2数据分析之EDA探索性数据分析_第8张图片
数据挖掘--task2数据分析之EDA探索性数据分析_第9张图片
数据挖掘--task2数据分析之EDA探索性数据分析_第10张图片

4、判断数据缺失和异常

数据挖掘--task2数据分析之EDA探索性数据分析_第11张图片
数据挖掘--task2数据分析之EDA探索性数据分析_第12张图片
数据挖掘--task2数据分析之EDA探索性数据分析_第13张图片
在这里插入图片描述
数据挖掘--task2数据分析之EDA探索性数据分析_第14张图片
数据挖掘--task2数据分析之EDA探索性数据分析_第15张图片
数据挖掘--task2数据分析之EDA探索性数据分析_第16张图片
数据挖掘--task2数据分析之EDA探索性数据分析_第17张图片
数据挖掘--task2数据分析之EDA探索性数据分析_第18张图片
数据挖掘--task2数据分析之EDA探索性数据分析_第19张图片

5、了解预测值的分布

数据挖掘--task2数据分析之EDA探索性数据分析_第20张图片
数据挖掘--task2数据分析之EDA探索性数据分析_第21张图片
数据挖掘--task2数据分析之EDA探索性数据分析_第22张图片
数据挖掘--task2数据分析之EDA探索性数据分析_第23张图片
数据挖掘--task2数据分析之EDA探索性数据分析_第24张图片
数据挖掘--task2数据分析之EDA探索性数据分析_第25张图片
数据挖掘--task2数据分析之EDA探索性数据分析_第26张图片
数据挖掘--task2数据分析之EDA探索性数据分析_第27张图片
数据挖掘--task2数据分析之EDA探索性数据分析_第28张图片
数据挖掘--task2数据分析之EDA探索性数据分析_第29张图片
数据挖掘--task2数据分析之EDA探索性数据分析_第30张图片

6、对类别特征查看unique分布

数据挖掘--task2数据分析之EDA探索性数据分析_第31张图片
数据挖掘--task2数据分析之EDA探索性数据分析_第32张图片

7、数字特征分布

数据挖掘--task2数据分析之EDA探索性数据分析_第33张图片
数据挖掘--task2数据分析之EDA探索性数据分析_第34张图片
数据挖掘--task2数据分析之EDA探索性数据分析_第35张图片
数据挖掘--task2数据分析之EDA探索性数据分析_第36张图片
数据挖掘--task2数据分析之EDA探索性数据分析_第37张图片
数据挖掘--task2数据分析之EDA探索性数据分析_第38张图片
数据挖掘--task2数据分析之EDA探索性数据分析_第39张图片
数据挖掘--task2数据分析之EDA探索性数据分析_第40张图片
在这里插入图片描述
数据挖掘--task2数据分析之EDA探索性数据分析_第41张图片
数据挖掘--task2数据分析之EDA探索性数据分析_第42张图片

8、类别特征分析

数据挖掘--task2数据分析之EDA探索性数据分析_第43张图片
数据挖掘--task2数据分析之EDA探索性数据分析_第44张图片
数据挖掘--task2数据分析之EDA探索性数据分析_第45张图片
数据挖掘--task2数据分析之EDA探索性数据分析_第46张图片
数据挖掘--task2数据分析之EDA探索性数据分析_第47张图片
数据挖掘--task2数据分析之EDA探索性数据分析_第48张图片
数据挖掘--task2数据分析之EDA探索性数据分析_第49张图片
数据挖掘--task2数据分析之EDA探索性数据分析_第50张图片
数据挖掘--task2数据分析之EDA探索性数据分析_第51张图片

9、用pandas_profiling生成数据报告

数据挖掘--task2数据分析之EDA探索性数据分析_第52张图片

四、数据探索的帮助

1、对于数据的初步分析(直接查看数据,或.sum(), .mean(),.descirbe()等统计函数)可以从:样本数量,训练集数量,是否有时间特征,是否是时许问题,特征所表示的含义(非匿名特征),特征类型(字符类似,int,float,time),特征的缺失情况(注意缺失的在数据中的表现形式,有些是空的有些是”NAN”符号等),特征的均值方差情况。

2、分析记录某些特征值缺失占比30%以上样本的缺失处理,有助于后续的模型验证和调节,分析特征应该是填充(填充方式是什么,均值填充,0填充,众数填充等),还是舍去,还是先做样本分类用不同的特征模型去预测。

3、对于异常值做专门的分析,分析特征异常的label是否为异常值(或者偏离均值较远或者事特殊符号),异常值是否应该剔除,还是用正常值填充,是记录异常,还是机器本身异常等。

4、对于Label做专门的分析,分析标签的分布情况等。

5、进步分析可以通过对特征作图,特征和label联合做图(统计图,离散图),直观了解特征的分布情况,通过这一步也可以发现数据之中的一些异常值等,通过箱型图分析一些特征值的偏离情况,对于特征和特征联合作图,对于特征和label联合作图,分析其中的一些关联性。

五、总结

探索性数据分析(EDA)目的是最大化对数据的直觉,完成这件事的方法只能结合统计学的图形以各种形式展现出来。
通过EDA可以实现:得到数据直观的表现,发现潜在的结构,提取重要的变量,处理异常值,检验统计假设,建立初步模型,决定最优因子的设置。(来源网络总结)

六、直播介绍

直播简介:
Part1将讲解和赛题理解部分。主要介绍数据挖掘比赛中如何去理解赛题,以及入门一个基础的Baseline.
Par2将介绍数据分析部分。主要介绍数据挖掘比赛中常用的数据分析绘图与量化方法,以及进行探索性数据分析的基本流程。

链接:ML67与小雨姑娘的直播

你可能感兴趣的:(python,数据挖掘,数据分析)