Python关于pandas的基础知识

一.扫盲

(一)、pandas 是什么

pandas 是 Python 的一个第三方数据处理库,它提供了高效、灵活的数据结构(如 Series 和 DataFrame),能方便地对结构化数据进行清洗、转换、分析和处理。

(二)、pandas 与 NumPy 的关系

NumPy 是 Python 中用于科学计算的基础库,主要用于存储和处理数值型数组。但它有一个局限,就是不能直接存储和处理字符串等非数值类型的数据

而 pandas 是在 NumPy 的基础上构建的,它不仅继承了 NumPy 对数值型数据的处理能力,还扩展了对字符串、日期等多种数据类型的支持,能更好地应对复杂的结构化数据处理场景。

(三)、为何需要用 pandas 处理 Excel 文件

在日常办公中,Excel 文件是非常常用的数据存储和处理格式。但如果仅依靠 Excel 软件本身进行大量数据的复杂处理,效率往往较低。

这时候就需要用到 pandas,它可以轻松读取和写入 Excel 文件,并且能通过简洁的代码实现数据筛选、排序、分组、计算等操作,大幅提升数据处理效率。

(四)、哪些行业常用 Excel 且适合用 pandas

很多行业在工作中频繁使用 Excel,其中金融行业、投行尤为典型。这些行业需要对大量的财务数据、交易数据、市场数据等进行编排、统计和分析计算,借助 pandas 能快速完成复杂的数据处理任务,提高工作效率和准确性。

(五)、openpyxl 库

除了 pandas,还有一个名为openpyxl的 Python 库,它可以直接读取和写入 Excel 文件。同时,openpyxl 还能模拟 pandas 的部分功能,在一些特定场景下为 Excel 文件处理提供更多选择。

(六).安装

  1. 点击顶部菜单栏 “File”(文件)→ “Settings”(设置)(或直接按 Ctrl + Alt + S 快捷键打开设置)。
  2. 在设置左侧列表,找到并点击 “Project: [你的项目名称]” → “Python Interpreter”(Python 解释器) 。
  3. 在右侧 “Python Interpreter” 界面,点 + 号(“Add” 按钮),打开包搜索安装窗口,搜索你需要的第三方库(如 pandas numpy 等 ),再点击 “Install Package” 安装即可。

二.代码演示

"""
DataFrame(数据框)
就是excel表(多个Series的拼接)
"""
import pandas as pd

df_1 = pd.DataFrame({'age':[10,11,12],
                     'name':['tim', 'tom', 'rose'],
                     'income':[100,200,300]},
                     index=['person1', 'person2', 'person3'])
print(df_1)

"""
dataframe的属性
"""
#行索引
df_1.index
#列名
df_1.columns
#值
df_1.values

df_1 = pd.DataFrame({'age':[10,11,12],
                     'name':['tim', 'tom', 'rose'],
                     'income':[100,200,300]})
print(df_1)
print(df_1.name)


在这个代码里面我们可以看到在6行 pandas 数据类型是dataframe numpy的数据类型是ndnarry

 其中

df_1 = pd.DataFrame({'age':[10,11,12],
                     'name':['tim', 'tom', 'rose'],
                     'income':[100,200,300]},
                     index=['person1', 'person2', 'person3'])

在DataFrame后面的数据是可以全部强制转化表格数据的类型,

#效果展示:

你可能感兴趣的:(python,pandas,开发语言)