python打卡 day4

数据的读取和查看

import pandas as pd
data = pd.read_csv(r'data.csv')
type(data) #查看数据的类型
data.isnull() #查看数据数据中,返回值是一个布尔矩阵,true即空值,false 为非空
data.head(10)#显示前十行数据
data2 =pd.read_excel('data.xlsx')
data2   #获取exle中数据

认识了pandas库,学会了基础的数据读取和查看方法。

pandas 是一个功能强大的库,在数据科学、机器学习、数据分析等领域都有广泛的应用。

pandas 主要有两种数据结构: Series 和 DataFrame 。
 1. Series
Series 是一维带标签的数组,能存储任何数据类型(整数、字符串、浮点数等)。

2. DataFrame
DataFrame 是二维表格型数据结构,类似于电子表格或SQL表,每列可以是不同的数据类型。

数据信息的查看

data.info()       # 列名、非空值、数据类型
data.shape        # (行数, 列数) data的属性
data.columns      # 所有列名 data的属性
data.describe()   # 数值列的基本统计量
data.dtypes       # 各列数据类型
data.info()
data["Annual Income"].dtype # 查看某一列的数据类型
data.isnull()            # 布尔矩阵显示缺失值,这个方法返回一个布尔矩阵,也是dataframe对象,其中True表示对应位置的值是缺失值,False表示对应位置的值不是缺失值。
data.isnull().sum()      # 每列缺失值计数,sum方法为求每一列的和

 


在 pandas 库中, .isnull().sum() 是一个常用的组合方法,用于统计 DataFrame 或 Series 里每列(或整个 Series )的缺失值数量。

1. .isnull() 方法
.isnull() 方法用于检测数据中的缺失值(通常是 NaN 或 None )。对于 DataFrame ,它会返回一个布尔类型的 DataFrame ;对于 Series ,则返回一个布尔类型的 Series 。其中, True 表示对应位置的值是缺失值, False 表示对应位置的值不是缺失值。

2. .sum() 方法
在布尔类型的 DataFrame 或 Series 上调用 .sum() 方法时, pandas 会把 True 当作 1, False 当作 0 来计算总和。这样就能统计出每列(或整个 Series )中 True 的数量,也就是缺失值的数量。


缺失值的填补

data['Annual Income']
type(data['Annual Income'])
median_income = data['Annual Income'].median()#中位数计算
data['Annual Income'].fillna(median_income, inplace=True)
data['Annual Income'].isnull().sum()
# 使用众数填充缺失值
import pandas as pd
data = pd.read_csv('data.csv') #需要重新读取一遍数据
mode = data['Annual Income'].mode()
# mode() 会返回数据中出现频率最高的所有值,如果频次相同,会返回最多每个值。
mode
mode = mode[0]#保留第一个返回值
data['Annual Income'].fillna(mode, inplace=True)# 众数填补
# 检查下是否有缺失值
data['Annual Income'].isnull().sum()


data.columns
type(data.columns)
import numpy as np
a =np.array([1,2,3])
a.tolist()
c = data.columns.tolist()
type(c)

# 循环遍历c这个列表中的每一列
for i in c:
    # 找到为数值型的列
    if data[i].dtype != 'object': # 找到为数值型的列
        if data[i].isnull().sum() > 0: # 找到存在缺失值的列
            #计算该列的均值
            mean_value = data[i].mean()
            #用均值填充缺失值
            data[i].fillna(mean_value, inplace=True)

data.isnull().sum()

tolist() 方法提供了一种方便的方式,让我们可以把 NumPy 数组和 Pandas 对象转换为Python原生的列表,这样就能在需要列表的场景中使用这些数据了。

在Python里, tolist() 是一个常用方法,主要用于将 NumPy 数组或者 Pandas 对象(如 Series 和 DataFrame )转换为Python原生的列表( list )。下面分别介绍在 NumPy 和 Pandas 中的使用方法。

 1. 在 NumPy 中的使用
NumPy 数组是一种高效的多维数组对象, tolist() 方法能把 NumPy 数组转换为Python列表。

2 将 DataFrame 的列转换为列表
如果要将 DataFrame 的某一列转换为列表,可以先选取该列,再调用 tolist() 方法。


来源@浙大疏锦行

你可能感兴趣的:(python学习打卡,python,开发语言,爬虫)