使用python进行数据清洗

1、在数据清洗前,我们需要先查看数据概况,了解我们需要清洗的数据大概包含什么字段、每个字段下面数据范围大概如何,数据清洗常用到的函数和语法分别有:

info函数:用于了解数据总体情况,包括行数,列数,各列名称等,比如

app.info()

shape函数:用于查看数据矩阵的行和列 

关于python函数中shape的解释:
shape包含在numpy库,是矩阵(ndarray)的属性,可以获取矩阵的形状(例如二维数组的行列),获取的结果是一个元组,因此相关代码如下:
import numpy as np
x = np.array([[1,2,3,4,5],[6,7,8,9,10],[10,9,8,7,6],[5,4,3]])
#输出数组的行和列数
print x.shape #结果: (4, 5)
#只输出行数
print x.shape[0] #结果: 4
#只输出列数
print x.shape[1] #结果: 5
————————————————
版权声明:本文为CSDN博主「企鹅爱吃冰淇淋」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/weixin_44804700/article/details/98874358

head函数:了解dataframe前5行数据(默认),但也可以查看更多行,比如head(20)可查看前20行数据

describe函数:了解dataframe数据的描述性统计量,包括 count mean std min max 25% 50% 75% 等

count   195.000000  #数量
mean   2744.595385 #均值
std     424.739407 #标准差
min     865.000000 #最小值
25%    2460.600000 #上四分位
50%    2655.900000 #中位数
75%    3023.200000 #下四分位

max    4065.200000 #最大值

range  3200.200000 #极差max-min
var       0.154755 #变异系数 std/mean

dis     562.600000 #四分位间距 75%-25%
————————————————
版权声明:本文为CSDN博主「程志伟」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/c1z2w3456789/article/details/80929140

2、对数据有一个基本的了解之后,我们就开始数据清洗啦!
删除不需要/多余的变量或者字段

运用drop()函数,通常有三种等价的公式

 

 

 

 

 

 

 

你可能感兴趣的:(用python数据分析)