2. 数据集的构成

                                                                                                                                         点击此处返回总目录

 

我们上一节说了,要从历史数据中获得规律。那这些历史数据应当是什么样的格式?存储在哪?

 

在机器学习中,大多数数据都存储在文件中。不会存在数据库。

机器学习的数据:大部分以文件的形式存储,比如csv文件。

 

一、为什么不存储在mysql中?

1. mysql的性能瓶颈。

   机器学习的数据很大,有的几百兆,上G。如果使用mysql进行存储,要进行磁盘读写,读取速度不行。数据量一大,就会很慢很慢。

2. mysql的格式不太符合机器学习要求的数据格式。

   要经过很多转换才行。

3. 我们已经有很强大的工具:pandas。pandas主要用来读取数据、处理数据。pandas读取处理的速度非常快。pandas是基于numpy的,numpy的速度非常快。

 

 

补充知识:

python为什么慢?第一是因为是动态语言。另一个原因是它有一个全局解释性锁GIL。比如开4个线程,但是一个时刻只能一个线程工作。

numpy为什么快?因为numpy把GIL锁释放了。是真正的多线程。

   

二、数据集的构成

 

1. 可用的数据集。

Kaggle数据。

UCI数据:比较专业。每个领域都有。

scikit-learn:数据量小,方便学习。

                        2. 数据集的构成_第1张图片

 

 

2. 常用数据集的结构组成

数据集包括:特征值+目标值。

比如面下的例子:一行是一个样本。共有3个样本。

有4个特征。目标值是房价。

 

                                    2. 数据集的构成_第2张图片2. 数据集的构成_第3张图片

 

注意,有的数据集可能没有目标值。我们以后讲机器学习的算法的时候会讲怎么办。

 

 

 

 

 

 

 

 

 

你可能感兴趣的:(15,机器学习)