Day4@浙大疏锦行

  1. 打开数据(csv文件、excel文件)
    import pandas as pd
    data = pd.read_csv(r'data.csv') #读取csv文件
    data2 =pd.read_excel('data.xlsx') #读取excel文件,pandas读取excel需要安装openpyxl库

  2. 查看数据(尺寸信息、查看列名等方法)
    type(data)       # 查看内置数据类型
    data.info()      # 列名、非空值、数据类型
    data.shape       # (行数, 列数) data的属性
    data.columns     # 所有列名 data的属性
    data.describe()   # 数值列的基本统计量
    data.dtypes       # 各列数据类型 ,dtype是data type的缩写,用于描述数据类型。后续会频繁借助这个方法来查看某一列数据的属性
    data["Annual Income"].dtype      # 查看某一列的数据类型
     

  3. 查看空值
    data.isnull()            # 布尔矩阵显示缺失值,这个方法返回一个布尔矩阵,也是dataframe对象,其中True表示对应位置的值是缺失值,False表示对应位置的值不是缺失值。

  4. 众数、中位数填补空值
    data['Annual Income']
    median_income = data['Annual Income'].median()
    data['Annual Income'].fillna(median_income, inplace=True)
    data['Annual Income'].isnull().sum() # 查看缺失值的数量
    import pandas as pd
    data = pd.read_csv('data.csv') #需要重新读取一遍数据
    mode = data['Annual Income'].mode()
    mode = mode[0]
    data['Annual Income'].fillna(mode, inplace=True)  # 检查下是否有缺失值
    data['Annual Income'].isnull().sum()

  5. 利用循环补全所有列的空值
    import numpy as np
    a =np.array([1,2,3])
    for i in c:
        # 找到为数值型的列
        if data[i].dtype != 'object': # 找到为数值型的列
            if data[i].isnull().sum() > 0: # 找到存在缺失值的列
                #计算该列的均值
                mean_value = data[i].mean()
                #用均值填充缺失值
                data[i].fillna(mean_value, inplace=True)
     
    data.isnull().sum()

你可能感兴趣的:(python,爬虫,开发语言)