scikit-learn提供了一些标准的数据集,例如用于分类的 iris 和digits数据集,用于回归的boston house prices数据集。
在下文中,通过代码演示加载 iris 和 digits数据集。由于我电脑装的Anaconda,里面的是IPython2.7版本,若是python 3.5以上的,代码自行略微修改。
# -*- coding: utf-8 -*-
#从sklearn导入数据集
from sklearn import datasets
iris = datasets.load_iris()
digits = datasets.load_digits()
例如,在digits是数据集中,digits.data可以根据这些t特征对digits数据样本进行分类:
print digits.data
[[ 0. 0. 5. ..., 0. 0. 0.]
[ 0. 0. 0. ..., 10. 0. 0.]
[ 0. 0. 0. ..., 16. 9. 0.]
...,
[ 0. 0. 1. ..., 6. 0. 0.]
[ 0. 0. 2. ..., 12. 0. 0.]
[ 0. 0. 10. ..., 12. 1. 0.]]
并且,digits.target给出了数据集的真实值,就是每个数字图案对应想预测的真实数字:
digits.target
array([0, 1, 2, ..., 8, 9, 8])
digits.images[0]
array([[ 0., 0., 5., 13., 9., 1., 0., 0.],
[ 0., 0., 13., 15., 10., 15., 5., 0.],
[ 0., 3., 15., 2., 0., 11., 8., 0.],
[ 0., 4., 12., 0., 0., 8., 8., 0.],
[ 0., 5., 8., 0., 0., 9., 8., 0.],
[ 0., 4., 11., 0., 1., 12., 7., 0.],
[ 0., 2., 14., 5., 10., 12., 0., 0.],
[ 0., 0., 6., 13., 10., 0., 0., 0.]])