from sklearn import datasets
from classify import ClassfyMethods
from sklearn.model_selection import train_test_split
if __name__ == '__main__':
iris = datasets.load_iris() #sklearn鸢尾花数据集作为测试
train_X, train_Y = iris.data, iris.target
train_X, test_x, train_Y, _ = train_test_split(train_X, train_Y, test_size=.3)
print(train_X.shape, train_Y.shape)
Thanos = ClassfyMethods() #实例化分类算法对象
Thanos.train_all(train_X, train_Y) #七种分类算法进行训练并交叉验证
Thanos.ensembling(train_X, train_Y, test_x) #进行模型融合
class ClassfyMethods(object):
def __init__(self, k_fold_num=5 ):
self.sortedClassifies = []
self.sortedIndex = []
self.test_classifiers = ['KNN', 'LR', 'RF', 'DT', 'SVM', 'SVMCV', 'GBDT']
self.classifiers = {'KNN': self.knn_classifier,
'LR': self.logistic_regression_classifier,
'RF': self.random_forest_classifier,
'DT': self.decision_tree_classifier,
'SVM': self.svm_classifier,
'SVMCV': self.svm_cross_validation,
'GBDT': self.gradient_boosting_classifier
}
传入参数k_fold_num,当参数缺省时,默认为5。如果处理训练样本比较大,可适当提高数值(一般为10)。
有七种分类算法分别对应:KNN(K-nearest Neighbor, 近邻分类算法)、LR(Lenear Regression,线性回归分类算法)、RF(Random Forrest, 随机森林分类算法)、DT(Decision Tree, 决策树分类算法)、SVM(Support Vector Machine,支持向量机)、SVMCV(Support Vector Machine, 交叉验证的支持向量机)、GBDT(Gradient Boosting Decision Tree,梯度提升决策树)
# KNN Classifier
def knn_classifier(self, train_x, train_y):
from sklearn.neighbors import KNeighborsClassifier
model = KNeighborsClassifier()
model.fit(train_x, train_y)
return model
# Logistic Regression Classifier
def logistic_regression_classifier(self, train_x, train_y):
pass
# Random Forest Classifier
def random_forest_classifier(self, train_x, train_y):
pass
# Decision Tree Classifier
def decision_tree_classifier(self, train_x, train_y):
pass
# GBDT(Gradient Boosting Decision Tree) Classifier
def gradient_boosting_classifier(self, train_x, train_y):
pass
#SVM Classifier
def svm_classifier(self, train_x, train_y):
pass
# SVM Classifier using cross validation
def svm_cross_validation(self, train_x, train_y):
pass
def read_data(self, train_X, train_Y, split_size=.3):
pass
def train_all(self, train_X, train_Y):
pass
def ensembling(self, train_x, train_y, test_x, n_folds=5, ensemble_num=3):
pass
- Base Model 之间的相关性要尽可能的小。这就是为什么非 Tree-based Model 往往表现不是最好
但还是要将它们包括在 Ensemble 里面的原因。Ensemble 的 Diversity 越大,最终 Model 的 Bias
就越低。- Base Model 之间的性能表现不能差距太大。这其实是一个 Trade-off,在实际中很有可能表现相近的Model 只有寥寥几个而且它们之间相关性还不低。但是实践告诉我们即使在这种情况下 Ensemble 还是能大幅提高成绩。参考链接
stacking融合原理
Check if every item in the dataset is in the same class:
If so return the class label
Else
find the best feature to split the data
split the dataset
create a branch node
for each split
call createBranch and add the result to the branch node
return branch node
信息熵的定义:
- 某个事件 i i 的信息量:这个事件发生概率的负对数
信息熵即为信息量的期望值负数:
信息增益:设特征A是离散的,有 k k 个不同的取值 a1 a 1 , a2 a 2 …… ak a k ,根据特征A的取值将数据集D划分为 k k 个标签: D1 D 1 , D2 D 2 …… Dk D k 划分后的信息上为
熵越大,则表示越混乱;熵越小,则表示越有序。因此信息增益表示混乱的减小程度。
增益比率是信息增益方法的一种扩展,是为了克服信息增益带来的弱泛化的缺陷。因为在极端情况下每个样本一对一到对应节点是,条件熵为0,此时获得的信息熵是最大的,但这种情况导致了过拟合。
故,引入引入信息增益比来作为一个更合适的衡量数据划分的标准,即增益比率。
课件,如果数据划分越多,对应的分裂信息的值也越大。这时候吧分裂信息放到坟墓上变回中和信息增益带来的弊端。
典型的决策树生成算法有ID3和C4.5,这两种生成树过程大致相似。不同的是,ID3采用的是信息增益作为特征选取的度量,而C4.5采用的是信息增益比。
训练数据集:
其中,
xi x i 为第i 个特征向量, yi y i 为第 xi x i 的标记,当 yi=+1 y i = + 1 则 xi x i 为正例;当 yi=−1 y i = − 1 则 xi x i 为负例。
给定线性可分训练数据集,通过间隔最大化学习的分离超平面为:
超平面 (w,b) ( w , b ) 关于训练集T的函数间隔为:
超平面 (w,b) ( w , b ) 关于训练集T的几何间隔为:
函数间隔和几何间隔的关系:
最大间隔分离超平面可转化为分类问题进行求解:
进行等价转换为函数间隔进行约束,简化函数:
函数间隔 γ̂ i γ ^ i 并不影响最优化问题的解,为了简化函数,可令 γ̂ i=1 γ ^ i = 1 ,将其等价转化为:
对上述方程构建拉格朗日乘子 αi≥0,i=1,2,⋯,N α i ≥ 0 , i = 1 , 2 , ⋯ , N
对拉格朗日乘子进行求导,从而求出 x x 最优解:
可知,进行等价转化:
带入拉格朗日乘子:
在线性支持可分向量的基础上引入了了惩罚参数 C C :
每个松弛变量 xii x i i 都有对应的惩罚代价 Cxii C x i i ,这里C>0代表惩罚参数。
- C值越大,对错误分类点的惩罚度越高,容忍度越低
- C值越小,对错误分类点的惩罚度越低,容忍度越高
当分类问题难以进行线性分类时,利用高位的核函数将点映射到高维进行划分超平面。
设 X 是输入空间, H 是特征空间,存在 X 到 H 的映射:
使得对所有 x x , z∈ z ∈ X , 函数 K(x,z) K ( x , z ) 满足条件:
常用的核函数:
1. 多项式核函数:
通过核函数和软间隔最大化,学习得到分类决策函数: