python sklearn数据集及分析方法

python sklearn数据集及分析方法

sklearn库

数据集

小数据集:

数据信名称 调用方式 适用算法 数据规模
波士顿房价数据集 load_boston() 回归 506*13
鸢尾花数据集 load_iris() 分类 150*4
糖尿病数据集 load_diabetes() 回归 442*10
手写数字数据集 load_digits() 分类 5620*64

大数据集:

数据信名称 调用方式 适用算法 数据规模
Olivetti脸部图像数据集 fetch_olivetti_faces() 降维 4006464
新闻分类数据集 fetch_20newsgroups() 分类 -
带标签的人脸数据集 fetch_lfw_people() 分类、降维 -
路透社新闻语料数据集 fetch_revl() 分类 804414*47236

数据提取

波士顿房价数据集,回归问题
数据集包含506组数据,每条数据包含房至以及房屋周围的详细信息

城镇犯罪率 一氧化氮浓度 住宅平均房间数 到中心区域的加权距离 平均价格

数据加载

from sklearn.datasets.base import load_boston
boston=load_boston(return_X_y=Faalse) #return_X_y=True 表示以字典形式返回数据
print(boston.data.shape)
print(boston.target.shape)

鸢尾花数据集,分类问题
测量数据:萼片长度、萼片宽度、花瓣长度、花瓣宽度
类别分类:Iris Setosa,Iris Versicolour,Iris Virginica

fron sklearn.datasets.base import load_iris
iris=load_iris(return_X_y) #data,target)
print(iris.data.shape)
pirnt(iris.target.shape)
list(iris.target_names)

手写数据集
手写数字数据集包含1797个0-9的手写数字数据
每个数字由8*8大小矩阵,矩阵中值的范围是0-16,代表颜色的深度

from sklearn.datasets.base import load_digits
digits=load_digits(n_class=10,reruen_X_y=Falase) #n_class 返回类别数如=5返回0-4的数据样本
digits.data
digits.target
digits.target_names
digits.images
import matplotlib.pyplot as plt
plt.matshow(digits.images[0])
plt.show()

sklearn库的基本功能

sklearn库的共分为6大部分,分别用于完成分类任务、回归任务、聚类任务、降维任务、模型选择以及数据的预处理

分类任务

分类模型 加载模块
最近邻算法 sklearn.neighbors.NearestNeighbors
支持向量机 sklearn.svm.SVC
朴素贝叶斯 sklearn.naive_bayes.GaussianNB
决策树 sklearn.tree.DecisionTreeClassifier
集成方法 sklearn.ensemble.BaggingClassifier
神经网络 sklearn.neural_network.MLPClassifier

回归任务

回归模型 加载模块
岭回归 sklearn.linear_model.Ridge
Lasso回归 sklearn.linear_model.Lasso
弹性网络 sklearn.linear_model.ElasticNet
最小角回归 sklearn.linear_model.Lars
贝叶斯回归 sklearn.linear_model.BayesianRidge
逻辑回归 sklearn.linear_model.LogisticRegression
多项式回归 sklearn.preprocessing.PolynomialFeatures

聚类任务

聚类方法 加载模块
K-means sklearn.cluster.KMeans
AP聚类 sklearn.cluster.AffinityPropagation
均值漂移 sklearn.cluster.MeanShift
层次聚类 sklearn.cluster.AgglomerativeClustering
DBSCAN sklearn.cluster.DBSCAN
BIRCH sklearn.cluster.Birch
谱聚类 sklearn.cluster.SpectralClustering

降维任务

降维方法 加载模块
主成分分析 sklearn.decomposition.PCA
截断SVD和LSA sklearn.decomposition.TruncatedSVD
字典学习 sklearn.decomposition.SparseCoder
因子分析 sklearn.decomposition.FactorAnalysis
独立成分分析 sklearn.decomposition.FastICA
非负矩阵分解 sklearn.decomposition.NMF
LDA sklearn.decomposition.LatentDirichletAllocation

你可能感兴趣的:(python库)