团子的pandas库总结(1)

由于工作后模拟仿真会产生大量的数据,如何正确地读取、清洗、处理和可视化数据是我必须要面对的问题,pandas是一个常用的数据处理的python库,它所包含的数据结构和数据处理工具的设计使得在python中进行数据清洗和分析非常快捷。下面开始对pandas库的特性和方法总结:

pandas数据结构介绍

1.Series

series对象自身和其索引都有name属性,这个特性与pandas其他重要功能集成在一起:
obj4.name=‘population’
obj4.index.name=‘state’

2.DataFrame

frame.head()会选出头部的五行;

dataframe有两种检索其中一列的方式frame[‘year’]和frame.year,该两种函数均返回一个series,frame[column]对于任意列名均有效,但是frame.column只在列名是有效的python变量名时有效,所以尽量使用frame[column]结构。

空的‘debt’列可以赋值为标量值或值数组:
frame[‘debt’]=16.5 frame会新增debt列,并且值均为16.5
frame[‘debt’]=np.arange(6.) frame会按照索引从低至高给debt列赋值0、1、2、3、4、5

将series赋给一列时,series的索引将会按照dataframe的索引重新排列,并在空缺的地方填充缺失值。

增加一列布尔值,判断条件是state列是否为‘ohio’:
frame[‘eastern’]= frame.state==‘ohio’

del方法可以用于移除之前新建的列:
del frame[‘eastern’]

如果嵌套字典被赋值给dataframe,pandas会将字典的键作为列,将内部字典的键作为行索引。

可是使用 frame.T 来对打他frame进行转置(调换行和列)。

如果dataframe的索引和列拥有name属性,则这些name属性也会被显示:
frame.index.name=‘year’
frame.columns.name=‘state’

3.索引对象

‘ohio’ in frame3.columns 和 2003 in frame3.index,此种语句可以判别某元素是否存在于索引或者列中。

pandas索引对象可以包含重复标签。根据重复标签进行筛选,会选取所有重复标签对应的数据。

方法 描述
append 将额外的索引对象粘贴到原索引后,产生一个新的索引
difference 计算两个索引的差集
intersection 计算两个索引的交集
union 计算两个索引的并集
isin 计算表示每一个值是否在传值容器中的布尔数组
delete 将位置i的元素删除,并产生新的索引
drop 根据传参删除指定索引值,并产生新的索引
is_monotonic 如果索引序列递增则返回True
is_unique 如果索引序列唯一则返回True
unique 计算索引的唯一值序列

你可能感兴趣的:(pandas,python)