当我们快速理解数据内容及其分布时,可以选用一些可视化工具,将数据展示出来,从而使我们对数据具有一个直观的认识。常用的数据可视化库有
首先导入Seaborn库
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline %表示画的图形在notebook中显示出来
sns.set() %使用seaborn风格画图
本文中的使用到的数据为seaborn中自带的数据集tips
本次使用到的数据集是比较有名的tips(小费)数据集。小费数据集,是一个餐厅侍者收集的关于小费的数据,其中包含了七个变量,包括总费用、付小费的金额、付款者性别、是否吸烟、日期、日间、顾客人数。
sns.distplot(data[“variablename”])
我们看一下总账单分布
sns.distplot(tips["total_bill"], bins=16, color="purple")
tips[“total_bill”]指定绘画某一列的数据
bins=16表示柱状图的个数
sns.jointplot(x="total_bill", y="tip", data=tips, color="purple")
还可以通过修改kind参数,显示kde曲线等
解释上图中,颜色越深代表其密度越大
sns.pairplot(tips, hue="sex", palette="Set2")
sns.boxplot(x="day", y="total_bill", data=tips)
sns.violinplot(x="day", y="total_bill", data=tips)
Seaborn 将 matplotlib 的参数划分为两个独立的组合。第一组是设置绘图的外观风格的,第二组主要将绘图的各种元素按比例缩放的,以至可以嵌入到不同的背景环境中。
操控这些参数的接口主要有两对方法:
控制风格:axes_style(), set_style()
缩放绘图:plotting_context(), set_context()
有五种seaborn的风格,它们分别是:darkgrid, whitegrid, dark, white, ticks。它们各自适合不同的应用和个人喜好。默认的主题是darkgrid。
例如
sns.set_style("whitegrid")
sns.distplot(tips["total_bill"], bins=16, color="purple")
sns.distplot(tips["total_bill"], bins=16, color="purple")
sns.despine()
当刻度没有完全覆盖整个轴的范围时,trim参数可以用来限制已有脊柱的范围。
sns.distplot(tips["total_bill"], bins=16, color="purple")
sns.despine(offset=10, trim=True)
将一个字典参数传递给axes_style()和set_style()的参数rc。而且你只能通过这个方法来覆盖风格定义中的部分参数。
有四个预置的环境,按大小从小到大排列分别为:paper, notebook, talk, poster。其中,notebook是默认的。
sns.set_context("poster")
sns.distplot(tips["total_bill"], bins=16, color="purple")