DataFrame 是 Pandas 中最重要的数据结构之一,它类似于电子表格或 SQL 表,但具有更强大的功能。DataFrame 是由行和列组成的二维标签数据结构,可以存储许多不同类型的数据,并且可以轻松地处理缺失值和执行数据操作。
简单点说
DataFrame 就像是一个 Excel 表格或者数据库中的一张表,你可以把它想象成一个二维的数据容器,有行和列。每一行代表数据的一个样本,每一列代表一种属性或特征。
举个例子,假设你有一些关于人员的数据,比如姓名、年龄和所在城市。你可以把这些数据放在一个 DataFrame 中,就像这样:
姓名 | 年龄 | 城市 |
---|---|---|
Alice | 25 | New York |
Bob | 30 | Los Angeles |
Charlie | 35 | Chicago |
你可以通过 DataFrame 来做很多事情,比如:
具体涉及的特性如下:
1、创建 DataFrame: 你可以从各种数据源创建 DataFrame,包括字典、列表、CSV 文件、数据库查询等。
import pandas as pd
# 从字典创建 DataFrame
data = {'Name': ['Alice', 'Bob', 'Charlie'],
'Age': [25, 30, 35],
'City': ['New York', 'Los Angeles', 'Chicago']}
df = pd.DataFrame(data)
2、查看 DataFrame 的内容: 你可以使用 .head()
方法查看 DataFrame 的前几行,使用 .tail()
方法查看最后几行。
print(df.head()) # 查看前几行,默认显示前五行
print(df.tail()) # 查看最后几行,默认显示后五行
3、索引和选择数据: 你可以使用标签或位置来选择 DataFrame 中的数据。
# 使用标签选择列
print(df['Name'])
# 使用位置选择行
print(df.iloc[0])
4、增加、删除和修改数据: 你可以对 DataFrame 进行增加、删除和修改数据的操作。
# 增加列
df['Gender'] = ['Female', 'Male', 'Male']
# 删除列
df.drop(columns=['City'], inplace=True)
# 修改数据
df.loc[0, 'Age'] = 26
5、数据的基本统计分析: 你可以对 DataFrame 中的数据进行基本的统计分析,如平均值、中位数、最大值、最小值等。
print(df.describe()) # 显示数值列的基本统计信息
6、数据的排序和过滤: 你可以对 DataFrame 中的数据进行排序和过滤操作。
# 按 Age 列进行排序
df_sorted = df.sort_values(by='Age', ascending=False)
# 过滤 Age 大于 30 的行
df_filtered = df[df['Age'] > 30]
7、数据的合并和连接: 你可以合并多个 DataFrame,或者根据某些条件将它们连接起来。
# 合并两个 DataFrame
df_merged = pd.concat([df1, df2])
# 根据某些条件连接两个 DataFrame
df_merged = pd.merge(df1, df2, on='ID')
DataFrame 是 Pandas 中的核心数据结构之一,它提供了丰富的功能和灵活的操作,可以帮助你轻松地处理和分析数据。
总之,DataFrame 是一个非常方便的工具,可以帮助你管理和分析各种类型的数据。