《机器学习Python实践 》读书笔记-数据理解

1. 导入数据

加载数据集的方式有很多种,从数据库中加载,从文件中加载

names = ['preg','plas','pres','skin','test','mass','pedi','age','class']
df = pd.read_csv('data/pima-indians-diabetes.csv' , names=names)

这里涉及函数:read_csv
加载数据集的时候,我们需要知道,数据集的内容,分割符号等,如果是文件的话,可以先打开看一看。

2. 理解数据

  • 查看下数据的具体内容:df.head()

  • 查看数据集的概要描述:df.describe()

  • 查看数据集的大小:df.shape

  • 查看字段的类型:df.dtypes

3. 数据属性的相关性

数据属性的相关性,是指数据的两个属性是否相互影响 ,以及这种影响是什么方式的等

判断属性的相关性,会用到皮尔逊相关系数,相关系数,介于-1和1之间,1表示完全正相关,-1表示完全负相关。

在机器学习中,当数据的相关性比较高时,有些算法的性能会降低(linear、逻辑回归算法),当相关性较高时,可以考虑对特征进行降维处理

df.corr()

4. 数据的分布

通过分析数据的分布,来确认数据的偏离情况,这里有一个概念叫偏度

偏度(skewness)也称为偏态、偏态系数,是统计数据分布偏斜方向和程度的度量,是统计数据分布非对称程度的数字特征

正太分布的偏度为0;
偏度<0,则分布具有负偏离,即左偏(尾巴在左面);
偏度>0,则分布具有正偏离,即右偏(尾巴在右面)

pandas中,使用skew()函数即可

你可能感兴趣的:(《机器学习Python实践 》读书笔记-数据理解)