看文吃下———预处理

文章目录

  • 一、常见预处理有什么?
  • 二、操作步骤
    • 1.读入数据https://mp.csdn.net/mp_blog/creation/editor?not_checkout=1#2_45
    • 2.缺失值处理

一、常见预处理有什么?

        常见的数据预处理,包括数据加载缺失值处理异常值处理描述性变量转换为数值型训练集测试集划分数据规范化

二、操作步骤

1.数据读取

import pandas as pd
import numpy as np
import os
import matplotlib.pyplot as plt
import sklearn

%inline matplotlib 

data = pd.read_csv(r'../filename.csv',encoding="gbk") #读取csv文件 
data = pd.read_table(r'../filename.txt') #读取txt文件 
data = pd.read_excel(r'../filename.xlsx') #读取excel文件
data.head()

2.数据预处理操作

#查看行列数
data.shape 

#查看数据类型
data.dtypes 


#返回data列标签
data.columns  

# 统计data信息
data.describe().T[['mean', '50%', 'min', 'max']]

#统计每列有几个缺失值
data.isnull().sum() 

#找出存在缺失值的列
missing_col = data.columns[data.isnull().any()].tolist() 

# 检查data每列的缺失值的占比
data.apply(lambda x : sum(x.isnull())/len(x), axis=0) 
 
#axis=0代表'行','any'代表任何空值行,若是'all'则代表所有值都为空时,才删除该行
data.dropna(axis=0,how="any",inplace=True) 

#删除带有空值的行
data.dropna(axis=0,inplace=True)  

#删除带有空值的列
data.dropna(axis=1,inplace=True) 

#缺失值全部用0插补
data = data.fillna(0)

#某列缺失值用固定值插补  
data['col_name'] = data['col_name'].fillna('UNKNOWN')

#查看数据类型
data.describe() 

该处使用的url网络请求的数据。


总结

提示:这里对文章进行总结:
例如:以上就是今天要讲的内容,本文仅仅简单介绍了pandas的使用,而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。

你可能感兴趣的:(python,数据挖掘)