Python数据处理 ——展现Pandas 的强大

一、简介

Pandas是一个基于NumPy的分析结构化数据的工具集,NumPy为其提供了高性能的数据处理能力。Pandas被普遍用于数据挖掘和数据分析,同时也提供数据清洗、数据I/O、数据可视化等辅助功能。Pandas不仅简洁,还拥有出众的数据处理能力和完备的辅助功能。归纳起来,Pandas有以下5大特点。

  • 具有极强的自适应能力。无论是Python还是NumPy的数据对象,即使是结构不规则的数据也可以轻松转换为DataFrame。Pandas还可以自动处理缺失数据,类似NumPy的掩码数组。
  • NumPy为其提供了快速的数据组织和处理能力。Pandas支持任意增删数据列,支持合并、连接、重塑、透视数据集,支持聚合、转换、切片、花式索引、子集分解等操作。
  • 完善的时间序列。Pandas支持日期范围生成、频率转换、移动窗口统计、移动窗口线性回归、日期位移等时间序列功能。
  • 拥有全面的I/O工具。Pandas支持读取文本文件(CSV等支持分隔符的文件)、Excel文件、HDF文件、SQL表数据、json数据、html数据,甚至可以直接从url下载并解析数据,也可以将数据保存为CSV文件或Excel文件。
  • 对用户友好的显示格式。不管数据复杂程度如何,Pandas展现出的数据结构总是最清晰的,它支持自动对齐对象和标签,必要时也可以忽略标签。

二、Series与 DataFrame的介绍

  • 1.1 第一件事,导入所需的扩展库:NumPy 和 Pandas
import numpy as np
print(np.__version__)   # 查看NumPy版本
import pandas as pd
print(pd.__version__)   # 查看Pandas版本
  • 1.2 使用Pandas读取csv文件,了解Pandas的数据结构: DataFrame 和 Series
df = pd.read_csv(r'./data/scores.csv', encoding = 'gbk')  # .data
df
  • 注:以上代码构建了一个带标签的二维数据表格。总分、学号、性别、操作系统、算法分析与设计、数据仓库与挖掘技术、平均分是每列数据的标签,所有列的标签称为列名;0-19是每一行数据的标签,所有行的标签称为索引。这个带标签的二维数据表格就是Pandas最核心的数据结构DataFrame,所有关于Pandas的操作和技巧几乎都是围绕着DataFrame这个结构进行的。
  • Series是由一组同一类型的数据和一组与数据对应的标签(Index)组成的数据结构,这个标签又称为索引,索引是允许重复的。Pandas提供了多种生成Series的方式。简言之,Series就是带标签的一维数组。
  • 默认索引是从0开始的整型序列,也可以指定索引。如下所示:
pd.Series([1,2,3])   # 默认索引
pd.Series([1,2,3],index = [2020, 2021, 2022])   #指定索引
pd.Series([1,2,3],index = [2020, 2020, 2022])   #指定索引

你可能感兴趣的:(python,pandas,开发语言)