目录
数据结构
pandas.Series :一维数组,类似于数组,但索引可以是任意类型,而不仅仅是整数
pandas.DataFrame :二维表格型数据结构,类似于 Excel 表格,每列可以是不同的数据类型
数据读取与写入
读取数据
pd.read_csv() :读取 CSV 文件
pd.read_excel() :读取 Excel 文件
pd.read_sql() :从数据库读取数据
写入数据
DataFrame.to_csv() :将数据写入 CSV 文件
DataFrame.to_excel() :将数据写入 Excel 文件
DataFrame.to_sql() :将数据写入数据库
数据选择与索引
基于标签的索引
DataFrame.loc :按标签选择数据
Series.loc :按标签选择数据
基于位置的索引
DataFrame.iloc :按位置选择数据
Series.iloc :按位置选择数据
布尔索引
数据清洗与预处理
处理缺失值
DataFrame.dropna() :删除缺失值
DataFrame.fillna() :填充缺失值
数据类型转换
DataFrame.astype() :转换数据类型
重复数据处理
DataFrame.drop_duplicates() :删除重复数据
数据分组与聚合
分组
DataFrame.groupby() :对数据进行分组
聚合
GroupBy.sum() :计算每组的总和
GroupBy.mean() :计算每组的平均值
GroupBy.agg() :自定义聚合函数
数据合并与连接
合并
pd.concat() :沿特定轴连接多个对象
DataFrame.merge() :基于共同列合并数据
连接
DataFrame.join() :按索引连接两个对象
数据排序与排名
排序
DataFrame.sort_values() :按值排序
DataFrame.sort_index() :按索引排序
排名
DataFrame.rank() :对数据进行排名
数据时间序列
时间序列创建
pd.date_range() :创建日期范围
pd.to_datetime() :将字符串转换为日期时间格式
时间序列操作
DataFrame.resample() :对时间序列数据进行重采样
DataFrame.shift() :将数据沿时间轴移动
数据可视化
DataFrame.plot() :绘制数据图表
Series.plot() :绘制序列图表
Pandas 是 Python 中一个功能强大的数据分析库,它提供了大量用于数据处理、分析和转换的方法。以下按照不同的功能类别详细介绍 Pandas 库中常用的方法:
## 数据结构
import pandas as pd
# 创建 Series, s.index获取索引, s.values获取数据值
s = pd.Series([1, 2, 3], index=['a', 'b', 'c'])
print(s)
# a 1
# b 2
# c 3
# dtype: int64
print(s.index) # Index(['a', 'b', 'c'], dtype='object')
print(s.values) # [1 2 3]
# 创建 DataFrame, df.index获取行索引, df.columns获取列索引, df.values获取数据值
df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})
print(df)
# A B
# 0 1 4
# 1 2 5
# 2 3 6
print(df.index) # RangeIndex(start=0, stop=3, step=1)
print(df.columns) # Index(['A', 'B'], dtype='object')
print(df.values)
# [[1 4]
# [2 5]
# [3 6]]
## 数据读取与写入
# 读取数据
import pandas as pd
import sqlite3
# 读取 CSV 文件
df = pd.read_csv('data.csv')
print(df)
# 读取 Excel 文件
df = pd.read_excel('data.xlsx')
print(df)
# 从 SQLite 数据库读取数据
conn = sqlite3.connect('database.db')
df = pd.read_sql('SELECT * FROM table_name', conn)
print(df)
# 写入数据
import pandas as pd
import sqlite3
# 写入 CSV 文件
df.to_csv('output.csv', index=False)
# 写入 Excel 文件
df.to_excel('output.xlsx', index=False)
# 将数据写入 SQLite 数据库
df.to_sql('table_name', conn, if_exists='replace', index=False)
## 数据选择与索引
# 按标签选择数据
import pandas as pd
# 创建一个 DataFrame
df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]}, index=['row1', 'row2', 'row3'])
print("原始 DataFrame:")
print(df)
# A B
# row1 1 4
# row2 2 5
# row3 3 6
# 按标签选择单个元素
print("\n选择 'row1' 行和 'A' 列的元素:")
print(df.loc['row1', 'A']) # 1
# 按标签选择多行和多列
print("\n选择 'row1' 和 'row2' 行,以及 'A' 和 'B' 列:")
print(df.loc[['row1', 'row2'], ['A', 'B']])
# A B
# row1 1 4
# row2 2 5
# 按标签选择所有行,但只选择特定列
print("\n选择所有行,但只选择 'B' 列:")
print(df.loc[:, 'B'])
# row1 4
# row2 5
# row3 6
# Name: B, dtype: int64
# 创建一个 Series
s = pd.Series([1, 2, 3], index=['a', 'b', 'c'])
print("\n原始 Series:")
print(s)
# 原始 Series:
# a 1
# b 2
# c 3
# dtype: int64
# 按标签选择单个元素
print("\n选择 'a' 索引的元素:")
print(s.loc['a']) # 1
# 按标签选择多个元素
print("\n选择 'a' 和 'c' 索引的元素:")
print(s.loc[['a', 'c']])
# a 1
# c 3
# dtype: int64
# 基于位置的索引
import pandas as pd
# 创建一个 DataFrame
df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})
print("原始 DataFrame:")
print(df)
# A B
# 0 1 4
# 1 2 5
# 2 3 6
# 按位置选择单个元素
print("\n选择第1行第1列的元素:")
print(df.iloc[0, 0]) # 1
# 按位置选择多行和多列
print("\n选择第1行和第2行,以及第0列和第1列:")
print(df.iloc[[0, 1], [0, 1]])
# A B
# 0 1 4
# 1 2 5
# 按位置选择所有行,但只选择特定列
print("\n选择所有行,但只选择第1列:")
print(df.iloc[:, 1])
# 0 4
# 1 5
# 2 6
# Name: B, dtype: int64
# 创建一个 Series
s = pd.Series([1, 2, 3])
print("\n原始 Series:")
print(s)
# 0 1
# 1 2
# 2 3
# dtype: int64
# 按位置选择单个元素
print("\n选择第0个位置的元素:")
print(s.iloc[0]) # 1
# 按位置选择多个元素
print("\n选择第0个和第2个位置的元素:")
print(s.iloc[[0, 2]])
# 0 1
# 2 3
# dtype: int64
根据条件筛选数据
# 根据条件筛选数据
import pandas as pd
# 创建一个 DataFrame
df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})
filtered_df = df[df['A'] > 2]
print(filtered_df)
# dtype: int64
# A B
# 2 3 6
## 数据清洗与预处理
# 删除缺失值
df.dropna(inplace=True)
# 填充缺失值
df.fillna(0, inplace=True)
# 转换数据类型
df['A'] = df['A'].astype('int')
# 删除重复数据
df.drop_duplicates(inplace=True)
## 数据分组与聚合
# 对数据进行分组
grouped = df.groupby('column_name')
# 计算每组的总和
grouped.sum()
# 计算每组的平均值
grouped.mean()
# 自定义聚合函数
grouped.agg(['mean', 'sum', 'max'])
## 数据合并与连接
# 合并
# 沿特定轴连接多个对象, 0行1列
df1 = pd.DataFrame({'A': [1, 2], 'B': [3, 4]})
df2 = pd.DataFrame({'A': [5, 6], 'B': [7, 8]})
concatenated_df = pd.concat([df1, df2], axis=0)
print(concatenated_df)
# A B
# 0 1 3
# 1 2 4
# 0 5 7
# 1 6 8
# 基于共同列合并数据
df1 = pd.DataFrame({'A': [1, 2], 'B': [3, 4]})
df2 = pd.DataFrame({'A': [1, 2], 'C': [5, 6]})
merged_df = df1.merge(df2, on='A')
print(merged_df)
# A B C
# 0 1 3 5
# 1 2 4 6
# 连接
# 按索引连接两个对象, lsuffix和rsuffix是当列名冲突时在后添加后缀,以便区分
df1 = pd.DataFrame({'A': [1, 2], 'B': [3, 4]})
df2 = pd.DataFrame({'C': [5, 6], 'D': [7, 8]})
joined_df = df1.join(df2, lsuffix='_left', rsuffix='_right')
print(joined_df)
## 数据排序与排名
# 排序
df = pd.DataFrame({'A': [1, 2], 'B': [3, 4]})
sorted_df = df.sort_values('A', ascending=False)
print(sorted_df)
# A B
# 1 2 4
# 0 1 3
# 按索引排序
sorted_df = df.sort_index()
print(sorted_df)
# A B
# 0 1 3
# 1 2 4
# 排名
df = pd.DataFrame({'A': [2, 1, 3], 'B': [4, 6, 5]})
# 对数据进行排名
ranked_df = df.rank()
print(ranked_df)
# A B
# 0 2.0 1.0
# 1 1.0 3.0
# 2 3.0 2.0
## 数据时间序列
# 时间序列创建
# 创建日期范围
dates = pd.date_range(start='2025-07-01', end='2025-08-1')
print(dates)
# DatetimeIndex(['2025-07-01', '2025-07-02', '2025-07-03', '2025-07-04',
# '2025-07-05', '2025-07-06', '2025-07-07', '2025-07-08',
# '2025-07-09', '2025-07-10', '2025-07-11', '2025-07-12',
# '2025-07-13', '2025-07-14', '2025-07-15', '2025-07-16',
# '2025-07-17', '2025-07-18', '2025-07-19', '2025-07-20',
# '2025-07-21', '2025-07-22', '2025-07-23', '2025-07-24',
# '2025-07-25', '2025-07-26', '2025-07-27', '2025-07-28',
# '2025-07-29', '2025-07-30', '2025-07-31', '2025-08-01'],
# dtype='datetime64[ns]', freq='D')
# 将字符串转换为日期时间格式
date = pd.to_datetime('2025-07-01')
print(date) # 2025-07-01 00:00:00
# 对时间序列数据进行重采样
dates = pd.date_range(start='2025-07-01', end='2025-07-4')
df = pd.DataFrame({'value': [1, 2, 3, 4]}, index=dates)
resampled_df = df.resample('M').mean()
print(resampled_df)
# value
# 2025-07-31 2.5
# 将数据沿时间轴移动
shifted_df = df.shift(periods=1, freq='D')
print(shifted_df)
# value
# 2025-07-02 1
# 2025-07-03 2
# 2025-07-04 3
# 2025-07-05 4
## 数据可视化
# 绘制数据图表
import matplotlib.pyplot as plt
df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})
df.plot(kind='line', x='A', y='B')
plt.show()
# 绘制序列图表
import matplotlib.pyplot as plt
s = pd.Series([1, 2, 3])
s.plot(kind='bar')
plt.show()