pandas

预备知识

想要快速上手pandas,必须先熟悉几个概念Series、DataFrame、Panel

  • Series,1维序列,可视作为没有column名的、只有一个column的DataFrame;
  • 把DataFrame理解成是个Excel就行了,实际上打印出来也确实像excel。DataFrame,同Spark SQL中的DataFrame一样,其概念来自于R语言,为多column并schema化的2维结构化数据,可视作为Series的容器(container);
  • Panel,为3维的结构化数据,可视作为DataFrame的容器;
import pandas
data = pandas.DataFrame([[1,2,3,4]], columns=['a','b','c','d',])

行数

len(data)

表头/列名

data.columns

data转化为list

data.values

判断值是否为NaN

  • NaN的数据类型居然是个float,具体等多少我没搞出来
pandas.isna(val)

行操作相关

  • 新增一行数据
    以下代码需他们的列名相同
new_row = pandas.DataFrame([6,7,8,9], columns=['a','b','c','d'])
//ignore_index表明行号要统一。
new_data = pandas.concat([new_row, data], ignore_index=True)
  • 查看前几行/后几行
//x可变
data.head(x)
data.tail(x)
  • 行切片
data[2:4] 

查看索引

data.index

行列转换

data.T

列相关操作

  • 指定列排序
data.sort(columns='a')
  • 选择某列
data['a']

定位

  • 定位一块局部数据
data.loc(data[2:4],'a')
  • 定位某一个
data.at(data[0],'a')

读取csv

pandas.read_csv(file_path,encoding='utf8')

参考教程

  • http://www.cnblogs.com/en-heng/p/5630849.html

你可能感兴趣的:(pandas)