提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档
学习pandas数据加载与存储,在数据读取时完成数据筛选、匹配、格式指定等操作,以便于进行数据分析操作。
pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。
import numpy as np
import pandas as pd
import sys
import os
os.chdir("操作者指定的目录")
os.getcwd()
(1)读取当前目录下“某招聘网站数据.csv ”文件
# 读取当前目录下“某招聘网站数据.csv ”文件
data = pd.read_csv("某招聘网站数据.csv")
data
读取数据之前先进行以下操作:
!pip install --upgrade openpyxl
!pip install --upgrade openpyxl==2.5.7
# 读取当前目录下 TOP250.xlsx 文件
data = pd.read_excel("TOP250.xlsx",engine='openpyxl')
data
#读取当前目录下“某招聘网站数据.csv”文件的前3行
data = pd.read_csv("某招聘网站数据.csv",nrows = 3,skiprows = [1])
data
#读取当前目录下“某招聘网站数据.csv”文件,跳过前20行
data = pd.read_csv("某招聘网站数据.csv",skiprows = [i for i in range(1,21)])
data
# 读取奇数行
data = pd.read_csv('某招聘网站数据.csv', skiprows=lambda x: (x != 0) and not x % 2)
data
#读取偶数行
data = pd.read_csv('某招聘网站数据.csv', skiprows=lambda x: x % 2)
data
# 读取当前目录下“某招聘网站数据.csv”文件的第 1、3、5 列
data = pd.read_csv("某招聘网站数据.csv",usecols = [0,2,4])
data
# 读取当前目录下“某招聘网站数据.csv”文件的 positionId、positionName、salary 列
data = pd.read_csv("某招聘网站数据.csv",usecols = ['positionId','positionName','salary'])
data
#读取当前目录下“某招聘网站数据.csv”文件的positionId、positionName、salary列,并将标题设置为 ID、岗位名称、薪资
data = pd.read_csv('某招聘网站数据.csv', usecols=[0,1,17],header = 0,names=['ID','岗位名称','薪资'])
data
(1)读取当前目录下 “Titanic.txt” 文件
data = pd.read_table("Titanic.txt")
data
(2)读取当前目录下 “TOP250.txt ”文件,含有中文
data = pd.read_table("TOP250.txt",encoding='gb18030')
# data = pd.read_csv("TOP250.txt",encoding='gb18030',sep = '\t') # 使用 read_csv 也可以
data
读取当前目录下 “某基金数据.json ”文件
data = pd.read_json("某基金数据.json")
data
读取当前目录下“store_tl.h5”文件
data = pd.read_hdf("store_tl.h5", "table")
data
http://data.eastmoney.com/hsgt/top10.html
import pandas as pd
df = pd.read_html(f'http://data.eastmoney.com/hsgt/top10.html')[0]
print(df)
(1)将读取到的数据保存为 csv 格式至当前目录下(文件名任意)
data = pd.read_csv("某招聘网站数据.csv",nrows = 3)
data
data.to_csv("存储某招聘网站数据.csv",encoding = 'utf_8_sig')
(2)将读取到的数据保存为 csv 格式至当前目录下(文件名任意),且只保留positionName、salary两列
data = pd.read_csv("某招聘网站数据.csv",nrows = 3)
data
data.to_csv("out.csv",encoding = 'utf_8_sig',columns=['positionName','salary'])
data = pd.read_csv("out.csv")
data
(3)将取到的数据保存为 csv 格式至当前目录下(文件名任意),且取消每一行的索引
data = pd.read_csv("某招聘网站数据.csv",nrows = 20)
data.to_csv("out.csv",encoding = 'utf_8_sig',index = False)
data = pd.read_csv("out.csv")
data
(4)将数据保存至 zip 文件,解压后出现 out.csv
data = pd.read_csv("某招聘网站数据.csv",nrows = 10)
data.to_excel("test.xlsx")
将读取到的数据保存为 xlsx 格式至当前目录下(文件名任意)
data = pd.read_csv("某招聘网站数据.csv",nrows = 10)
data.to_excel("test.xlsx")
将数据转换为 markdown 形式表格,这样可以直接复制进 .md 文件中使用
!pip install tabulate
df = pd.read_csv("某招聘网站数据.csv",nrows = 10)
print(df.head().to_markdown())
将之前的数据保存为 html 格式至当前目录下(文件名任意),并进行如下设置
(1)取消行索引
(2)标题居中对齐
(3)列宽100
data.to_html("out.html", col_space=100,index = None,justify = 'center',border = 1)
提示:这里对文章进行总结:
例如:以上就是今天要讲的内容,本文仅仅简单介绍了pandas的使用,而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。