pandas的数据清洗的数据集下载_Pandas数据探索

Pandas入门第二天

导语

今天来Pandas入门第二期啦。

继上一次完成了数据导入,今天开始数据探索部分,了解我们导入的数据基本情况。

01

数据探索

 Advanced issue found Advanced issue found

数据探索的必要性:

并不是所有的数据集都是完整且规范的。

原始数据集可能存在缺失值、重复值、异常值等。

上一集我们已经导入数据并借助.head()语句轻松查看数据集的前N行(默认前5行,查看前10行只需返回.head(10)即可)。

相对应的.tail()语句可以查看后N行,具体用法与head一致。

pandas的数据清洗的数据集下载_Pandas数据探索_第1张图片

由于我设置了索引列(读取csv文件时利用index_col设置),所以可以了解到我们的数据集共有50行数据。

但是在Pandas中,永远有更简洁的方法。

.info()

闪亮登场!

pandas的数据清洗的数据集下载_Pandas数据探索_第2张图片

从info输出结果我们可以获得哪些信息点呢?

  • 行数 1-50共50行

  • 列数 total 13 columns

  • 每一列的数据格式 object-对象 int64-数值

  • df的存储信息 - dataframe格式,使用5.5k内存

计算科学最常用的一个词是“数据结构”。

数据结构简单而言就是计算机存储、组织数据的方式。

DataFrame是python特有的,直译为“数据框”。

因为这是一个spotify音乐数据集,根据info输出的列名称可以推知数据集主要有专辑名称、艺术家名称、歌曲流派、BPM等等维度。

当然如果你只想查看列名:

pandas的数据清洗的数据集下载_Pandas数据探索_第3张图片

P.S. 这个数据的列名不是特别规范,我们可以用rename来进行重命名:

pandas的数据清洗的数据集下载_Pandas数据探索_第4张图片

以上重命名语句,不要忘记赋值给df,否则仅展示效果生效,列名仍保持不变。

正确的改列名语句是:

df=df.rename(columns={})

或者我们只想了解下df的行列数:

pandas的数据清洗的数据集下载_Pandas数据探索_第5张图片

有的小伙伴要说,搞了半天我到现在只对数据结构有个大概的认识,连数据有什么内容都还不知道,别急,describe出场来一显身手了:

pandas的数据清洗的数据集下载_Pandas数据探索_第6张图片

describe可以支持以上计数、均值、分位数、最值的输出,对了解数据的分布十分便捷。

pandas的数据清洗的数据集下载_Pandas数据探索_第7张图片

了解过seaborn的同学可以试试以Beats.Per.Minute画一个箱线图。

pandas的数据清洗的数据集下载_Pandas数据探索_第8张图片

从箱线图可以观察到BPM的数据分布与describe()给出的值范围一致。

02

复习

这一集主要了解了以下几个方法:

  • head()/tail()

  • info()

  • describe()

  • shape

  • size

  • columns

还记得每个方法的功能吗?

03

下期预告

下一集我们会继续对spotify数据进行探索。

会涉及到缺失值,重复值的检查和处理。

下期再见~

end.

我知道你

在看

pandas的数据清洗的数据集下载_Pandas数据探索_第9张图片

你可能感兴趣的:(pandas的数据清洗的数据集下载_Pandas数据探索)