pandas数据加载与存储

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档

文章目录

  • 前言
  • 一、pandas是什么?
  • 二、数据加载与存储
    • 1.引入库
    • 2.读入数据
      • 2.1 读取Excel文件
      • 2.2 读取 txt 文件
      • 2.3 读取 JSON 文件
      • 2.4 读取 HDF5 文件
      • 2.5 从网页读取数据
    • 3.存储数据
      • 3.1 存储为CSV
      • 3.2 保存为Eexcel
      • 3.3 保存为Markdown
      • 3.4 保存为Html
  • 总结


前言

学习pandas数据加载与存储,在数据读取时完成数据筛选、匹配、格式指定等操作,以便于进行数据分析操作。


一、pandas是什么?

pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。

二、数据加载与存储

1.引入库

import numpy as np
import pandas as pd
import sys
import os

os.chdir("操作者指定的目录")
os.getcwd()

pandas数据加载与存储_第1张图片

2.读入数据

2.1 读取Excel文件

(1)读取当前目录下“某招聘网站数据.csv ”文件

# 读取当前目录下“某招聘网站数据.csv ”文件
data = pd.read_csv("某招聘网站数据.csv")
data

pandas数据加载与存储_第2张图片
(2)读取当前目录下 “TOP250.xlsx” 文件

读取数据之前先进行以下操作:

!pip install --upgrade openpyxl

pandas数据加载与存储_第3张图片

!pip install --upgrade openpyxl==2.5.7

pandas数据加载与存储_第4张图片

# 读取当前目录下 TOP250.xlsx 文件
data = pd.read_excel("TOP250.xlsx",engine='openpyxl')
data

pandas数据加载与存储_第5张图片
(3)读入数据时进行筛选、匹配、格式化等操作

#读取当前目录下“某招聘网站数据.csv”文件的前3行
data = pd.read_csv("某招聘网站数据.csv",nrows = 3,skiprows = [1])
data

pandas数据加载与存储_第6张图片

#读取当前目录下“某招聘网站数据.csv”文件,跳过前20行
data = pd.read_csv("某招聘网站数据.csv",skiprows = [i for i in range(1,21)])
data

pandas数据加载与存储_第7张图片

# 读取奇数行
data = pd.read_csv('某招聘网站数据.csv', skiprows=lambda x: (x != 0) and not x % 2)
data
#读取偶数行 
data = pd.read_csv('某招聘网站数据.csv', skiprows=lambda x: x % 2) 
data
# 读取当前目录下“某招聘网站数据.csv”文件的第 1、3、5 列
data = pd.read_csv("某招聘网站数据.csv",usecols = [0,2,4])
data

pandas数据加载与存储_第8张图片

# 读取当前目录下“某招聘网站数据.csv”文件的 positionId、positionName、salary 列
data = pd.read_csv("某招聘网站数据.csv",usecols = ['positionId','positionName','salary'])
data

pandas数据加载与存储_第9张图片

#读取当前目录下“某招聘网站数据.csv”文件的positionId、positionName、salary列,并将标题设置为 ID、岗位名称、薪资
data = pd.read_csv('某招聘网站数据.csv', usecols=[0,1,17],header = 0,names=['ID','岗位名称','薪资'])
data

pandas数据加载与存储_第10张图片

2.2 读取 txt 文件

(1)读取当前目录下 “Titanic.txt” 文件

data = pd.read_table("Titanic.txt")
data

pandas数据加载与存储_第11张图片

(2)读取当前目录下 “TOP250.txt ”文件,含有中文

data = pd.read_table("TOP250.txt",encoding='gb18030')

# data = pd.read_csv("TOP250.txt",encoding='gb18030',sep = '\t') # 使用 read_csv 也可以
data

pandas数据加载与存储_第12张图片

2.3 读取 JSON 文件

读取当前目录下 “某基金数据.json ”文件

data = pd.read_json("某基金数据.json")
data

pandas数据加载与存储_第13张图片

2.4 读取 HDF5 文件

读取当前目录下“store_tl.h5”文件

data = pd.read_hdf("store_tl.h5", "table")
data

pandas数据加载与存储_第14张图片

2.5 从网页读取数据

http://data.eastmoney.com/hsgt/top10.html

import pandas as pd
df = pd.read_html(f'http://data.eastmoney.com/hsgt/top10.html')[0]
print(df)

pandas数据加载与存储_第15张图片

3.存储数据

3.1 存储为CSV

(1)将读取到的数据保存为 csv 格式至当前目录下(文件名任意)

data = pd.read_csv("某招聘网站数据.csv",nrows = 3)
data
data.to_csv("存储某招聘网站数据.csv",encoding = 'utf_8_sig')

pandas数据加载与存储_第16张图片

(2)将读取到的数据保存为 csv 格式至当前目录下(文件名任意),且只保留positionName、salary两列

data = pd.read_csv("某招聘网站数据.csv",nrows = 3)
data

data.to_csv("out.csv",encoding = 'utf_8_sig',columns=['positionName','salary'])
data = pd.read_csv("out.csv")
data

pandas数据加载与存储_第17张图片

(3)将取到的数据保存为 csv 格式至当前目录下(文件名任意),且取消每一行的索引

data = pd.read_csv("某招聘网站数据.csv",nrows = 20)
data.to_csv("out.csv",encoding = 'utf_8_sig',index = False)

data = pd.read_csv("out.csv")
data

pandas数据加载与存储_第18张图片

(4)将数据保存至 zip 文件,解压后出现 out.csv

data = pd.read_csv("某招聘网站数据.csv",nrows = 10)
data.to_excel("test.xlsx")

pandas数据加载与存储_第19张图片

3.2 保存为Eexcel

将读取到的数据保存为 xlsx 格式至当前目录下(文件名任意)

data = pd.read_csv("某招聘网站数据.csv",nrows = 10)
data.to_excel("test.xlsx")

在这里插入图片描述

3.3 保存为Markdown

将数据转换为 markdown 形式表格,这样可以直接复制进 .md 文件中使用

!pip install tabulate
df = pd.read_csv("某招聘网站数据.csv",nrows = 10)
print(df.head().to_markdown())

pandas数据加载与存储_第20张图片

3.4 保存为Html

将之前的数据保存为 html 格式至当前目录下(文件名任意),并进行如下设置
(1)取消行索引
(2)标题居中对齐
(3)列宽100

data.to_html("out.html", col_space=100,index = None,justify = 'center',border = 1)

pandas数据加载与存储_第21张图片
存储结果:
pandas数据加载与存储_第22张图片
本地查看存出结果:
pandas数据加载与存储_第23张图片

总结

提示:这里对文章进行总结:
例如:以上就是今天要讲的内容,本文仅仅简单介绍了pandas的使用,而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。

你可能感兴趣的:(1024程序员节,pandas,数据分析)