scikit-learn机器学习模块(上)

scikit-learn中的数据

数据格式:2维数组或者矩阵,[n_samples, n_features]

包含数据集:Iris data ,digits data, boston data(housing price), diabetes data例如:

from sklearn.datasets import load_iris
>>> iris = load_iris () -->其中含有iris.data和iris.target 我们可以通过print(data.DESCR)去查看关于数据集的详细信息


scikit-learn中的机器学习基本原理

线性回归

from sklearn.linear_model import LinearRegression
模型中的参数是可以初始化的,如:

model = LinearRegression(normalize=True)
当给定训练数据x和y时,模型拟合只需要调用:

model.fit(X, y)
另外,可以通过调用model的coef_值来查看训练得到的系数


最近邻算法

from sklearn import neighbors
neighbors中包含了KNN算法模型,通过以下调用(参数设置最近邻N的个数):

knn = neighbors.KNeighborsClassifier(n_neighbors=1)
knn . fit ( X , y ) 由于KNN算法是不需要训练的,待预测样本直接通过给定的样本找到最近的样本进行相应分类即可:

knn.predict(x),例如x = [[3, 5, 4, 2]]

线性SVM分类

from sklearn.svm import LinearSVC
 LinearSVC(loss='l1')或l2



从以上两个例子可以看到,我们将不同类型算法的“估算器”赋予给model变量,model在对训练样本学习时,只需要调用model.fit(X, y)

对于监督式的评估器,预测新数据的方式为:model.predict(X_new)

对于分类问题,有些评估器提供model.predict_proba()方法,返回的是每种类别的概率,概率最大的类别对应了model.predict()

对于非监督式的评估器,可以对特征进行转换,无监督转换指只利用特征的统计信息的转换,统计信息包括均值、标准差、边界等等,比如标准化、PCA法降维等。

例如model.transform()和model.fit_transform(x, y = None)这二者的区别在于

fit_transform需要先拟合数据,这里所说的拟合,不是指含有目标Y的那种拟合,而是根据给定数据找到相应的统计信息,如均值和标准差;

而transform一般用于测试数据,不需要再拟合,而是直接使用训练数据拟合好的统计信息,如均值和标准差,对测试数据进行处理;

其它的模型方法,需要使用时再查阅即可。


数据降维PCA

PCA,主成分分析,可以对数据进行降维,以手写字符为例:

from sklearn.decomposition import PCA
>>> pca = PCA ( n_components = 2 ) ##降至2个维度 >>> proj = pca . fit_transform ( digits . data ) ## >>> plt . scatter ( proj [:, 0 ], proj [:, 1 ], c = digits . target )

高斯朴素贝叶斯分类

高斯朴素贝叶斯分类方法是种简单快速的方法,如果简单且快速的方法足以使结果满意,则无需浪费过多CPU资源设计复杂算法-->sklearn.naive_bayes.GaussianNB

高斯朴素贝叶斯对每个相同label的数据进行高斯拟合,然后对测试数据进行大致的分类,尽管对于现实世界的拟合不是很准确,但也很不错,特别对于文本数据

from sklearn.naive_bayes import GaussianNB
from sklearn.model_selection import train_test_split
train_test_split可以自动把数据随机分成训练集和测试集:

X_train, X_test, y_train, y_test = train_test_split(digits.data, digits.target)
该算法调用方法与上一致,具体使用再好好研究其中参数

clf = GaussianNB()
clf.fit(X_train, y_train)
测试时

predicted = clf.predict(X_test)


结果的量化分析

在模块sklearn.metrics中有许多成熟的度量方法:

from sklearn import metrics
>>> print ( metrics . classification_report ( expected , predicted )) 对于分类的评判,会返回精度precision、召回率recall、f1-score和support

另一种是混淆矩阵,调用方式如下:

metrics.confusion_matrix(expected, predicted)
可以帮助我们看到每一类的误分情况

有时候我们可以将每一维特征和结果的关系画图,手工选择有用的特征


Gradient Boosting Tree Regression

 GBT是一种很强大的回归树

from sklearn.ensemble import GradientBoostingRegressor
clf = GradientBoostingRegressor()
clf . fit ( X_train , y_train ) predicted = clf . predict ( X_test )


另外:

(回归)决策树Decision Tree

from sklearn.tree import DecisionTreeRegressor


待续……









你可能感兴趣的:(python语言,机器学习)