Python训练打卡Day4

#初识pandas库与缺失数据的补全

在Python中几乎所有的对象都是类的实例化,其中实例化是根据类来创建具体对象的过程。打个比方,类就像是汽车的设计图纸,实例化就像是按照汽车设计图纸生产出一辆真正的汽车。每一辆生产出来的汽车都有自己独特的属性值,比如颜色可能是红色或者蓝色,这些汽车就是类的实例。

每个对象都有属性(attributes)和方法(methods),属性是对象的变量或数据,方法是对象的函数或操作。(方法的本质就是函数)

【例子】按照示例代码的要求,去尝试补全信贷数据集中的数值型缺失值

  1. 打开数据(csv文件、excel文件)
  2. 查看数据(尺寸信息、查看列名等方法)
  3. 查看空值
  4. 众数、中位数填补空值
  5. 利用循环补全所有列的空值

数据的读取和查看

#读取数据
import pandas as pd
data = pd.read_csv(r'data.csv')
data. Head()

 
#pip install openpyxl
#pandas读取excel需要安装openpyxl库,去anaconda prompt中安装
data2 =pd.read_excel('data.xlsx')
data.head()

在 pd.read_csv(r'data.csv') 里使用 r 前缀,能确保 data.csv 路径里的反斜杠不会被错误转义,特别是在 Windows 系统中路径使用反斜杠作为分隔符时,使用原始字符串能让代码更简洁、易读。

数据信息的查看

data.info()      #列名、非空值、数据类型
data.shape       #(行数, 列数) data的属性
data.columns     #所有列名data的属性
data.describe()  #数值列的基本统计量
data.dtypes      #各列数据类型
data.isnull() 
#布尔矩阵显示缺失值,这个方法返回一个布尔矩阵,也是dataframe对象,其中True表示对应位置的值是缺失值,False表示对应位置的值不是缺失值。
type(data.isnull())
data.isnull().sum()  #每列缺失值计数 :先找出数据中的缺失值,再统计每列(对于 DataFrame)或者整个序列(对于 Series)中缺失值的数量。

isnull() 是 pandas 里的一个方法,它的作用是检查数据中的每个元素是否为缺失值(NaN 或者 None)。对于 DataFrame 或者 Series 里的每个元素,若为缺失值就返回 True,否则返回 False。最终会返回一个和原对象形状相同的布尔类型的 DataFrame 或者 Series。

缺少值的填补

data['Annual Income']
type(data['Annual Income'])# dataframe里单独的一列是series
 
#计算 'Annual Income' 列的中位数(会自动忽略 NaN 值)
median_income = data['Annual Income'].median()
median_income
 
#使用计算出的中位数填补该列的 NaN 值
#inplace=True 参数表示直接在原 DataFrame 上进行修改
#如果不设置该参数,fillna() 方法会返回一个新的 DataFrame,原 DataFrame 不会被修改
data['Annual Income'].fillna(median_income, inplace=True)
 
#检查下是否有缺失值
data['Annual Income'].isnull().sum()
 
#使用众数填充缺失值
import pandas as pd
data = pd.read_csv('data.csv') #需要重新读取一遍数据
mode = data['Annual Income'].mode()
#mode() 会返回数据中出现频率最高的所有值,如果频次相同,会返回最多每个值。
 
#这里返回了4个最多频次的值,我们一般保留第一个
mode = mode[0]
 
#众数填补
data['Annual Income'].fillna(mode, inplace=True)
#检查下是否有缺失值
data['Annual Income'].isnull().sum()

循环遍历填补所有的数值型缺失值

data.columns
type(data. Columns)
 
#介绍一下tolist方法,将numpy数组和pandas对象转换成list
import numpy as np
a =np.array([1,2,3])
a.tolist()
 
c = data.columns.tolist()
type(c)
 
#循环遍历c这个列表中的每一列
for i in c:
    # 找到为数值型的列
    if data[i].dtype != 'object': #找到为数值型的列
        if data[i].isnull().sum() > 0: #找到存在缺失值的列
            #计算该列的均值
            mean_value = data[i].mean()
            #用均值填充缺失值
            data[i].fillna(mean_value, inplace=True)
 
data.isnull().sum()

@浙大疏锦行

你可能感兴趣的:(Python学习笔记,python,开发语言)