python实现箱型分析_箱形图以及python实践

最近在接触kaggle的竞赛示例,练习了一下,感觉受益匪浅。同时,心中也有个问题。拿到数据之后第一件事是什么?分析数据的情况?怎么分析?分析之后如何去处理数据呢?等等一些数据分析的工作。其中,大家都可能非常清楚条形图、直方图、散点图和曲线图的用处,但是箱形图呢?(或者称为盒须图)。他的意义在哪里呢?在python中又是如何实现的呢?

于是我今天翻开了贾俊平老师的那本《统计学》琢磨了一下午,又参考了各大网友的博客,于是在此作下总结。

箱形图:从字面上理解就是箱子的图,如下图:

 

箱形图有5个参数:

下边缘(Q1),表示最小值;

下四分位数(Q2),又称“第一四分位数”,等于该样本中所有数值由小到大排列后第25%的数字;

中位数(Q3),又称“第二四分位数”等于该样本中所有数值由小到大排列后第50%的数字;

上四分位数(Q4),又称“第三四分位数”等于该样本中所有数值由小到大排列后第75%的数字;

上边缘(Q5),表述最大值。

第三四分位数与第一四分位数的差距又称四分位间距。

那为什么要引入箱形图呢?这里有篇博文也不错箱形图分析

1.为了反映原始数据的分布情况,比如数据的聚散情况和偏态。看看《统计学》这本书的插图

 

从图中我们可以直观地看出,箱形图的中位数和上四分位数的间距比较窄的话

你可能感兴趣的:(python实现箱型分析)