pandas基础2

文章目录

  • 一、pandas -series基础
    • 1、series创建
    • 2、series切片和索引
    • 3、打开csv文件
    • 4、打开mongodb文件
  • 二、pandas之DataFrame
    • 1、创建DataFrame
    • 2、DataFrame的描述信息
    • 2、DataFrame的排序方法
    • 3、DataFrame的取行和列
  • 三、布尔索引
  • 四、缺失数据的处理![](https://img-blog.csdnimg.cn/383d1f79535c4ec2bb3210c9f247cb19.png)
  • 五、练习
  • 六、练习二
  • 总结

一、pandas -series基础

1、series创建

pandas基础2_第1张图片

2、series切片和索引

pandas基础2_第2张图片
pandas基础2_第3张图片
pandas基础2_第4张图片

3、打开csv文件


# conding = utf-8
import pandas as pd
df = pd.read_csv("./dogNames2.csv")

print(df)

pandas基础2_第5张图片

4、打开mongodb文件

from pymongo import MongoClient
import pandas as pd
client = MongoClient()
collection = client["douban"]["tv1"]
data =list(collection.find())
print(data)

二、pandas之DataFrame

1、创建DataFrame

pandas基础2_第6张图片
pandas基础2_第7张图片
pandas基础2_第8张图片

#导入mangodb
from pymongo import MongoClient
import pandas as pd
client = MongoClient()
collection = client["douban"]["tv1"]
data =list(collection.find())
# print(data)

df = pd.DataFrame(data)
print(df)

2、DataFrame的描述信息

pandas基础2_第9张图片

# conding = utf-8
import pandas as pd
df = pd.read_csv("./dogNames2.csv")

print(df.head())
print(df.info())

pandas基础2_第10张图片

2、DataFrame的排序方法

# conding = utf-8
import pandas as pd
df = pd.read_csv("./dogNames2.csv")

# print(df.head())
# print(df.info())
df=df.sort_values(by="Count_AnimalName",ascending=False)
print(df.head(5))

pandas基础2_第11张图片

3、DataFrame的取行和列

取行

# conding = utf-8
import pandas as pd
df = pd.read_csv("./dogNames2.csv")

# print(df.head())
# print(df.info())
df=df.sort_values(by="Count_AnimalName",ascending=False)
# print(df.head(5))
print(df[:20])

取列

pandas基础2_第12张图片
总结:
#一方括号写数组,表示取行,对行进行操作
#-写字符串,表示的取列索引,对列进行操作

pandas基础2_第13张图片
pandas基础2_第14张图片
pandas基础2_第15张图片

三、布尔索引

# conding = utf-8
import pandas as pd
df = pd.read_csv("./dogNames2.csv")
df = df[(800<df["Count_AnimalName"])&(df["Count_AnimalName"]<1000)]
print(df)

pandas基础2_第16张图片

四、缺失数据的处理pandas基础2_第17张图片

五、练习

import pandas as pd
import numpy as np
file_path = "IMDB-Movie-Data.csv"
df = pd.read_csv(file_path)
# print(df.info())
print(df.head(1))
#获取平均评分

print(df["Rating"].mean())

#获取导演人数
# print(len(set(df["Director"].tolist())))

print(len(df["Director"].unique()))

#获取演员的人数
temp_actors_list = df["Actors"].str.split(",").tolist()
actors_list = [i for j in temp_actors_list for i in j]
# actors_list = list(np.array(temp_actors_list).flatten())
actors_num = len(set(actors_list))
print(actors_num)

pandas基础2_第18张图片

六、练习二

# coding=utf-8
import pandas as pd
from matplotlib import pyplot as plt
file_path = "./IMDB-Movie-Data.csv"

df = pd.read_csv(file_path)
# print(df.head(1))
# print(df.info())

#rating,runtime分布情况
#选择图形,直方图
#准备数据
# runtime_data = df["Rating"].values
runtime_data = df["Runtime (Minutes)"].values

max_runtime = runtime_data.max()
min_runtime = runtime_data.min()

#计算组数
print(max_runtime-min_runtime)
num_bin = (max_runtime-min_runtime)//5


#设置图形的大小
plt.figure(figsize=(20,8),dpi=80)
plt.hist(runtime_data,num_bin)

_x = [min_runtime]
i = min_runtime
while i<=max_runtime+0.5:
    i = i+0.5
    _x.append(i)

plt.xticks(_x)
plt.xticks(range(min_runtime,max_runtime,5))
plt.show()

pandas基础2_第19张图片

总结

你可能感兴趣的:(pandas,python,开发语言)