pythonsklearn乳腺癌数据集_【sklearn数据集】SVM之乳腺癌数据集实战

一、Sklearn介绍

scikit-learn是Python语言开发的机器学习库,一般简称为sklearn,目前算是通用机器学习算法库中实现得比较完善的库了。其完善之处不仅在于实现的算法多,还包括大量详尽的文档和示例。其文档写得通俗易懂,完全可以当成机器学习的教程来学习。

二、Sklearn数据集种类

sklearn 的数据集有好多个种

自带的小数据集(packaged dataset):sklearn.datasets.load_

可在线下载的数据集(Downloaded Dataset):sklearn.datasets.fetch_

计算机生成的数据集(Generated Dataset):sklearn.datasets.make_

svmlight/libsvm格式的数据集:sklearn.datasets.load_svmlight_file(…)

从买了http://data.org在线下载获取的数据集:sklearn.datasets.fetch_mldata(…)

三、Sklearn数据集

3.1 有关数据集的工具类

clearn_data_home 清空指定目录

get_data_home 获取sklearn数据根目录

load_files 加载类目数据

dump_svmlight_file 转化文件格式为svmlight/libsvm

load_svmlight_file 加载文件并进行格式转换

load_svmlight_files 加载文件并进行格式转换

3.2 有关文本分类聚类数据集

fetch_20newsgroups 新闻文本分类数据集

fetch_20newsgroups_vectorized 新闻文本向量化数据集

<

你可能感兴趣的:(pythonsklearn乳腺癌数据集_【sklearn数据集】SVM之乳腺癌数据集实战)