Python使用panda处理CSV文件

最近项目中遇到一些需要处理CSV文件的地方,遇到一些问题,因此做一下总结。

  1. 读取CSV
 import pandas as pd
 # 读取CSV文件,指定哪些列要被读取进来
 data = pd.read_csv(filePath, usecols=['a', 'b']) 
  1. 选择最后N条数据
data = data.tail(N)
''' 
假如选取了最后100条数据,行号从100开始,那这时候索引值就会从100开始,
因为在我处理数据的过程中需要加上一列,索引对不上的话会出错。使用reset_index来重置索引
'''
data.reset_index(drop=True, inplace=True)
  1. 拼接dataframe
#在原有的数据上加上一列, axis = 0 竖向拼接,axis = 1 横向拼接
data = pd.concat([data, data1], axis = 1)
  1. 根据某一列的值对dataframe进行分组
for i, g in data.groupby(['user']):
    g = g.sort_values(by="probability")
    #删除item值重复的行
    g = g.drop_duplicates(subset='item', keep='last', inplace=False)
    

你可能感兴趣的:(python)