「日拱一码」014 Python常用库——Pandas

目录

数据结构

 pandas.Series :一维数组,类似于数组,但索引可以是任意类型,而不仅仅是整数

pandas.DataFrame :二维表格型数据结构,类似于 Excel 表格,每列可以是不同的数据类型

数据读取与写入

读取数据

 pd.read_csv() :读取 CSV 文件

pd.read_excel() :读取 Excel 文件

pd.read_sql() :从数据库读取数据

写入数据

 DataFrame.to_csv() :将数据写入 CSV 文件

DataFrame.to_excel() :将数据写入 Excel 文件

DataFrame.to_sql() :将数据写入数据库

 数据选择与索引

基于标签的索引

DataFrame.loc :按标签选择数据

Series.loc :按标签选择数据

基于位置的索引

DataFrame.iloc :按位置选择数据

Series.iloc :按位置选择数据

布尔索引

数据清洗与预处理

处理缺失值

DataFrame.dropna() :删除缺失值

DataFrame.fillna() :填充缺失值

数据类型转换

DataFrame.astype() :转换数据类型

重复数据处理

DataFrame.drop_duplicates() :删除重复数据

数据分组与聚合

 分组

DataFrame.groupby() :对数据进行分组

聚合

GroupBy.sum() :计算每组的总和

GroupBy.mean() :计算每组的平均值

GroupBy.agg() :自定义聚合函数

数据合并与连接

合并

pd.concat() :沿特定轴连接多个对象

DataFrame.merge() :基于共同列合并数据

连接

 DataFrame.join() :按索引连接两个对象

数据排序与排名

排序

DataFrame.sort_values() :按值排序

DataFrame.sort_index() :按索引排序

排名

DataFrame.rank() :对数据进行排名

数据时间序列

时间序列创建

pd.date_range() :创建日期范围

 pd.to_datetime() :将字符串转换为日期时间格式

时间序列操作

DataFrame.resample() :对时间序列数据进行重采样

DataFrame.shift() :将数据沿时间轴移动

数据可视化

DataFrame.plot() :绘制数据图表

Series.plot() :绘制序列图表


Pandas 是 Python 中一个功能强大的数据分析库,它提供了大量用于数据处理、分析和转换的方法。以下按照不同的功能类别详细介绍 Pandas 库中常用的方法:

数据结构

  •  pandas.Series :一维数组,类似于数组,但索引可以是任意类型,而不仅仅是整数
  • pandas.DataFrame :二维表格型数据结构,类似于 Excel 表格,每列可以是不同的数据类型
## 数据结构
import pandas as pd

# 创建 Series, s.index获取索引, s.values获取数据值
s = pd.Series([1, 2, 3], index=['a', 'b', 'c'])
print(s)
# a    1
# b    2
# c    3
# dtype: int64

print(s.index)  # Index(['a', 'b', 'c'], dtype='object')
print(s.values)  # [1 2 3]

# 创建 DataFrame, df.index获取行索引, df.columns获取列索引, df.values获取数据值
df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})
print(df)
#    A  B
# 0  1  4
# 1  2  5
# 2  3  6

print(df.index)  # RangeIndex(start=0, stop=3, step=1)
print(df.columns)  # Index(['A', 'B'], dtype='object')
print(df.values)
# [[1 4]
#  [2 5]
#  [3 6]]

数据读取与写入

读取数据

  •  pd.read_csv() :读取 CSV 文件
  • pd.read_excel() :读取 Excel 文件
  • pd.read_sql() :从数据库读取数据
## 数据读取与写入
# 读取数据
import pandas as pd
import sqlite3

# 读取 CSV 文件
df = pd.read_csv('data.csv')
print(df)

# 读取 Excel 文件
df = pd.read_excel('data.xlsx')
print(df)

# 从 SQLite 数据库读取数据
conn = sqlite3.connect('database.db')
df = pd.read_sql('SELECT * FROM table_name', conn)
print(df)

写入数据

  •  DataFrame.to_csv() :将数据写入 CSV 文件
  • DataFrame.to_excel() :将数据写入 Excel 文件
  • DataFrame.to_sql() :将数据写入数据库
# 写入数据
import pandas as pd
import sqlite3

# 写入 CSV 文件
df.to_csv('output.csv', index=False)

# 写入 Excel 文件
df.to_excel('output.xlsx', index=False)

# 将数据写入 SQLite 数据库
df.to_sql('table_name', conn, if_exists='replace', index=False)

 数据选择与索引

基于标签的索引

  • DataFrame.loc :按标签选择数据
## 数据选择与索引

# 按标签选择数据
import pandas as pd

# 创建一个 DataFrame
df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]}, index=['row1', 'row2', 'row3'])
print("原始 DataFrame:")
print(df)
#       A  B
# row1  1  4
# row2  2  5
# row3  3  6

# 按标签选择单个元素
print("\n选择 'row1' 行和 'A' 列的元素:")
print(df.loc['row1', 'A'])  # 1

# 按标签选择多行和多列
print("\n选择 'row1' 和 'row2' 行,以及 'A' 和 'B' 列:")
print(df.loc[['row1', 'row2'], ['A', 'B']])
#       A  B
# row1  1  4
# row2  2  5

# 按标签选择所有行,但只选择特定列
print("\n选择所有行,但只选择 'B' 列:")
print(df.loc[:, 'B'])
# row1    4
# row2    5
# row3    6
# Name: B, dtype: int64
  • Series.loc :按标签选择数据
# 创建一个 Series
s = pd.Series([1, 2, 3], index=['a', 'b', 'c'])
print("\n原始 Series:")
print(s)
# 原始 Series:
# a    1
# b    2
# c    3
# dtype: int64

# 按标签选择单个元素
print("\n选择 'a' 索引的元素:")
print(s.loc['a'])  # 1

# 按标签选择多个元素
print("\n选择 'a' 和 'c' 索引的元素:")
print(s.loc[['a', 'c']])
# a    1
# c    3
# dtype: int64

基于位置的索引

  • DataFrame.iloc :按位置选择数据
# 基于位置的索引
import pandas as pd

# 创建一个 DataFrame
df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})
print("原始 DataFrame:")
print(df)
#    A  B
# 0  1  4
# 1  2  5
# 2  3  6

# 按位置选择单个元素
print("\n选择第1行第1列的元素:")
print(df.iloc[0, 0])  # 1

# 按位置选择多行和多列
print("\n选择第1行和第2行,以及第0列和第1列:")
print(df.iloc[[0, 1], [0, 1]])
#    A  B
# 0  1  4
# 1  2  5

# 按位置选择所有行,但只选择特定列
print("\n选择所有行,但只选择第1列:")
print(df.iloc[:, 1])
# 0    4
# 1    5
# 2    6
# Name: B, dtype: int64
  • Series.iloc :按位置选择数据
# 创建一个 Series
s = pd.Series([1, 2, 3])
print("\n原始 Series:")
print(s)
# 0    1
# 1    2
# 2    3
# dtype: int64

# 按位置选择单个元素
print("\n选择第0个位置的元素:")
print(s.iloc[0])  # 1

# 按位置选择多个元素
print("\n选择第0个和第2个位置的元素:")
print(s.iloc[[0, 2]])
# 0    1
# 2    3
# dtype: int64

布尔索引

根据条件筛选数据

# 根据条件筛选数据
import pandas as pd

# 创建一个 DataFrame
df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})
filtered_df = df[df['A'] > 2]
print(filtered_df)
# dtype: int64
#    A  B
# 2  3  6

数据清洗与预处理

处理缺失值

  • DataFrame.dropna() :删除缺失值
  • DataFrame.fillna() :填充缺失值

数据类型转换

  • DataFrame.astype() :转换数据类型

重复数据处理

  • DataFrame.drop_duplicates() :删除重复数据
## 数据清洗与预处理

# 删除缺失值
df.dropna(inplace=True)
# 填充缺失值
df.fillna(0, inplace=True)

# 转换数据类型
df['A'] = df['A'].astype('int')
# 删除重复数据
df.drop_duplicates(inplace=True)

数据分组与聚合

 分组

  • DataFrame.groupby() :对数据进行分组

聚合

  • GroupBy.sum() :计算每组的总和
  • GroupBy.mean() :计算每组的平均值
  • GroupBy.agg() :自定义聚合函数
## 数据分组与聚合

# 对数据进行分组
grouped = df.groupby('column_name')

# 计算每组的总和
grouped.sum()

# 计算每组的平均值
grouped.mean()

# 自定义聚合函数
grouped.agg(['mean', 'sum', 'max'])

数据合并与连接

合并

  • pd.concat() :沿特定轴连接多个对象
  • DataFrame.merge() :基于共同列合并数据
## 数据合并与连接
# 合并
# 沿特定轴连接多个对象, 0行1列
df1 = pd.DataFrame({'A': [1, 2], 'B': [3, 4]})
df2 = pd.DataFrame({'A': [5, 6], 'B': [7, 8]})
concatenated_df = pd.concat([df1, df2], axis=0)
print(concatenated_df)
#    A  B
# 0  1  3
# 1  2  4
# 0  5  7
# 1  6  8

# 基于共同列合并数据
df1 = pd.DataFrame({'A': [1, 2], 'B': [3, 4]})
df2 = pd.DataFrame({'A': [1, 2], 'C': [5, 6]})
merged_df = df1.merge(df2, on='A')
print(merged_df)
#    A  B  C
# 0  1  3  5
# 1  2  4  6

连接

  •  DataFrame.join() :按索引连接两个对象
# 连接
# 按索引连接两个对象, lsuffix和rsuffix是当列名冲突时在后添加后缀,以便区分
df1 = pd.DataFrame({'A': [1, 2], 'B': [3, 4]})
df2 = pd.DataFrame({'C': [5, 6], 'D': [7, 8]})
joined_df = df1.join(df2, lsuffix='_left', rsuffix='_right')
print(joined_df)

数据排序与排名

排序

  • DataFrame.sort_values() :按值排序
  • DataFrame.sort_index() :按索引排序
## 数据排序与排名

# 排序
df = pd.DataFrame({'A': [1, 2], 'B': [3, 4]})
sorted_df = df.sort_values('A', ascending=False)
print(sorted_df)
#    A  B
# 1  2  4
# 0  1  3

# 按索引排序
sorted_df = df.sort_index()
print(sorted_df)
#    A  B
# 0  1  3
# 1  2  4

排名

  • DataFrame.rank() :对数据进行排名
# 排名
df = pd.DataFrame({'A': [2, 1, 3], 'B': [4, 6, 5]})
# 对数据进行排名
ranked_df = df.rank()
print(ranked_df)
#      A    B
# 0  2.0  1.0
# 1  1.0  3.0
# 2  3.0  2.0

数据时间序列

时间序列创建

  • pd.date_range() :创建日期范围
  •  pd.to_datetime() :将字符串转换为日期时间格式
## 数据时间序列
# 时间序列创建
# 创建日期范围
dates = pd.date_range(start='2025-07-01', end='2025-08-1')
print(dates)
# DatetimeIndex(['2025-07-01', '2025-07-02', '2025-07-03', '2025-07-04',
#                '2025-07-05', '2025-07-06', '2025-07-07', '2025-07-08',
#                '2025-07-09', '2025-07-10', '2025-07-11', '2025-07-12',
#                '2025-07-13', '2025-07-14', '2025-07-15', '2025-07-16',
#                '2025-07-17', '2025-07-18', '2025-07-19', '2025-07-20',
#                '2025-07-21', '2025-07-22', '2025-07-23', '2025-07-24',
#                '2025-07-25', '2025-07-26', '2025-07-27', '2025-07-28',
#                '2025-07-29', '2025-07-30', '2025-07-31', '2025-08-01'],
#               dtype='datetime64[ns]', freq='D')

# 将字符串转换为日期时间格式
date = pd.to_datetime('2025-07-01')
print(date)  # 2025-07-01 00:00:00

时间序列操作

  • DataFrame.resample() :对时间序列数据进行重采样
  • DataFrame.shift() :将数据沿时间轴移动
# 对时间序列数据进行重采样
dates = pd.date_range(start='2025-07-01', end='2025-07-4')
df = pd.DataFrame({'value': [1, 2, 3, 4]}, index=dates)
resampled_df = df.resample('M').mean()
print(resampled_df)
#             value
# 2025-07-31    2.5

# 将数据沿时间轴移动
shifted_df = df.shift(periods=1, freq='D')
print(shifted_df)
#             value
# 2025-07-02      1
# 2025-07-03      2
# 2025-07-04      3
# 2025-07-05      4

数据可视化

  • DataFrame.plot() :绘制数据图表
## 数据可视化
# 绘制数据图表
import matplotlib.pyplot as plt

df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})
df.plot(kind='line', x='A', y='B')
plt.show()

 「日拱一码」014 Python常用库——Pandas_第1张图片

  • Series.plot() :绘制序列图表
# 绘制序列图表
import matplotlib.pyplot as plt

s = pd.Series([1, 2, 3])
s.plot(kind='bar')
plt.show()

「日拱一码」014 Python常用库——Pandas_第2张图片

你可能感兴趣的:(「日拱一码」014 Python常用库——Pandas)