DataFrame学习

DataFrame 是 Pandas 中最重要的数据结构之一,它类似于电子表格或 SQL 表,但具有更强大的功能。DataFrame 是由行和列组成的二维标签数据结构,可以存储许多不同类型的数据,并且可以轻松地处理缺失值和执行数据操作。

简单点说

DataFrame 就像是一个 Excel 表格或者数据库中的一张表,你可以把它想象成一个二维的数据容器,有行和列。每一行代表数据的一个样本,每一列代表一种属性或特征。

举个例子,假设你有一些关于人员的数据,比如姓名、年龄和所在城市。你可以把这些数据放在一个 DataFrame 中,就像这样:

姓名 年龄 城市
Alice 25 New York
Bob 30 Los Angeles
Charlie 35 Chicago

你可以通过 DataFrame 来做很多事情,比如:

  • 查看数据的前几行或者后几行。
  • 选择特定的行或列,比如你可以只关注年龄大于 30 的人。
  • 添加、删除或者修改数据,比如你可以增加一列性别信息。
  • 对数据进行排序或者过滤,比如按年龄排序,或者只显示居住在纽约的人。
  • 对数据进行统计分析,比如计算平均年龄、最大年龄等。

具体涉及的特性如下:

1、创建 DataFrame: 你可以从各种数据源创建 DataFrame,包括字典、列表、CSV 文件、数据库查询等。

import pandas as pd

# 从字典创建 DataFrame
data = {'Name': ['Alice', 'Bob', 'Charlie'],
        'Age': [25, 30, 35],
        'City': ['New York', 'Los Angeles', 'Chicago']}
df = pd.DataFrame(data)

2、查看 DataFrame 的内容: 你可以使用 .head() 方法查看 DataFrame 的前几行,使用 .tail() 方法查看最后几行。

print(df.head())  # 查看前几行,默认显示前五行
print(df.tail())  # 查看最后几行,默认显示后五行

3、索引和选择数据: 你可以使用标签或位置来选择 DataFrame 中的数据。

# 使用标签选择列
print(df['Name'])

# 使用位置选择行
print(df.iloc[0])

4、增加、删除和修改数据: 你可以对 DataFrame 进行增加、删除和修改数据的操作。

# 增加列
df['Gender'] = ['Female', 'Male', 'Male']

# 删除列
df.drop(columns=['City'], inplace=True)

# 修改数据
df.loc[0, 'Age'] = 26

5、数据的基本统计分析: 你可以对 DataFrame 中的数据进行基本的统计分析,如平均值、中位数、最大值、最小值等。

print(df.describe())  # 显示数值列的基本统计信息

6、数据的排序和过滤: 你可以对 DataFrame 中的数据进行排序和过滤操作。

# 按 Age 列进行排序
df_sorted = df.sort_values(by='Age', ascending=False)

# 过滤 Age 大于 30 的行
df_filtered = df[df['Age'] > 30]

7、数据的合并和连接: 你可以合并多个 DataFrame,或者根据某些条件将它们连接起来。

# 合并两个 DataFrame
df_merged = pd.concat([df1, df2])

# 根据某些条件连接两个 DataFrame
df_merged = pd.merge(df1, df2, on='ID')

DataFrame 是 Pandas 中的核心数据结构之一,它提供了丰富的功能和灵活的操作,可以帮助你轻松地处理和分析数据。

总之,DataFrame 是一个非常方便的工具,可以帮助你管理和分析各种类型的数据。

你可能感兴趣的:(学习记录,Pandas,大数据,人工智能,学习,python,pandas)