pandas 是 Python 的一个第三方数据处理库,它提供了高效、灵活的数据结构(如 Series 和 DataFrame),能方便地对结构化数据进行清洗、转换、分析和处理。
NumPy 是 Python 中用于科学计算的基础库,主要用于存储和处理数值型数组。但它有一个局限,就是不能直接存储和处理字符串等非数值类型的数据。
而 pandas 是在 NumPy 的基础上构建的,它不仅继承了 NumPy 对数值型数据的处理能力,还扩展了对字符串、日期等多种数据类型的支持,能更好地应对复杂的结构化数据处理场景。
在日常办公中,Excel 文件是非常常用的数据存储和处理格式。但如果仅依靠 Excel 软件本身进行大量数据的复杂处理,效率往往较低。
这时候就需要用到 pandas,它可以轻松读取和写入 Excel 文件,并且能通过简洁的代码实现数据筛选、排序、分组、计算等操作,大幅提升数据处理效率。
很多行业在工作中频繁使用 Excel,其中金融行业、投行尤为典型。这些行业需要对大量的财务数据、交易数据、市场数据等进行编排、统计和分析计算,借助 pandas 能快速完成复杂的数据处理任务,提高工作效率和准确性。
除了 pandas,还有一个名为openpyxl的 Python 库,它可以直接读取和写入 Excel 文件。同时,openpyxl 还能模拟 pandas 的部分功能,在一些特定场景下为 Excel 文件处理提供更多选择。
Ctrl + Alt + S
快捷键打开设置)。+
号(“Add” 按钮),打开包搜索安装窗口,搜索你需要的第三方库(如 pandas
numpy
等 ),再点击 “Install Package” 安装即可。二.代码演示
"""
DataFrame(数据框)
就是excel表(多个Series的拼接)
"""
import pandas as pd
df_1 = pd.DataFrame({'age':[10,11,12],
'name':['tim', 'tom', 'rose'],
'income':[100,200,300]},
index=['person1', 'person2', 'person3'])
print(df_1)
"""
dataframe的属性
"""
#行索引
df_1.index
#列名
df_1.columns
#值
df_1.values
df_1 = pd.DataFrame({'age':[10,11,12],
'name':['tim', 'tom', 'rose'],
'income':[100,200,300]})
print(df_1)
print(df_1.name)
在这个代码里面我们可以看到在6行 pandas 数据类型是dataframe numpy的数据类型是ndnarry
其中
df_1 = pd.DataFrame({'age':[10,11,12],
'name':['tim', 'tom', 'rose'],
'income':[100,200,300]},
index=['person1', 'person2', 'person3'])
在DataFrame后面的数据是可以全部强制转化表格数据的类型,
#效果展示: