模型融合:模型融合就是训练多个模型,然后按照一定的方法集成过个模型,应为它容易理解、实现也简单,同时效果也很好,在工业界的很多应用,在天池、kaggle比赛中也经常拿来做模型集成。
集成学习:Bagging:bootStrap
boosting: 叠加式
stacking :模型之间存在前后的关系,模型1的特征训练出给模型2进行训练
投票法是一种遵循少数服从多数原则的集成学习模型,通过多个模型的集成降低方差,从而提高模型的鲁棒性。在理想情况下,投票法的预测效果应当优于任何一个基模型的预测效果。
投票法在回归模型与分类模型上均可使用:
分类投票法又可以被划分为硬投票与软投票:
在实际应用上,想要投票法产生较好的结果,需要满足两个条件:
Sklearn中提供了 VotingRegressor 与 VotingClassifier 两个投票方法。 这两种模型的操作方式相同,并采用相同的参数。使用模型需要提供一个模型列表,列表中每个模型采用Tuple的结构表示,第一个元素代表名称,第二个元素代表模型,需要保证每个模型必须拥有唯一的名称。
实例可见 task05.ipynb
随机森林:bagging+特征采样
假设一个总体服从正态分布 x ∼ N ( μ , σ 2 ) x\thicksim N(\mu,\sigma^{2}) x∼N(μ,σ2)需要估计 μ \mu μ和 σ \sigma σ,从数据集中抽了10次样,每次抽样抽了100随机变量 x i x_i xi, ( i = 1 , 2 , . . . , 100 ) (i=1,2,...,100) (i=1,2,...,100),得到的 X j ˉ \bar{X_j} Xjˉ, ( j = 1 , 2 , . . . , 10 ) (j=1,2,...,10) (j=1,2,...,10)
对于 X j ˉ \bar{X_j} Xjˉ服从 N ( μ , σ 2 / n ) N(\mu,\sigma^{2}/n) N(μ,σ2/n),也就是说
1 n ∑ j = 1 n ( X j ˉ ) = E ( X ˉ ) = 1 n ∑ j = 1 n 1 m ∑ i = 1 m ( x i ) = E ( X ) = μ \frac{1}{n}\displaystyle\sum_{j=1}^n(\bar{X_j})=E(\bar{X})=\frac{1}{n}\displaystyle\sum_{j=1}^n\frac{1}{m}\displaystyle\sum_{i=1}^m(x_i)=E(X)=\mu n1j=1∑n(Xjˉ)=E(Xˉ)=n1j=1∑nm1i=1∑m(xi)=E(X)=μ 可见,可以根据 1 n ∑ j = 1 n ( X j ˉ ) \frac{1}{n}\displaystyle\sum_{j=1}^n(\bar{X_j}) n1j=1∑n(Xjˉ)推断 μ \mu μ的值。
V A R ( X ˉ ) = E ( X j ˉ − E ( X ˉ ) ) 2 = σ 2 / n VAR(\bar{X})=E(\bar{X_j}-E(\bar{X}))^2= \sigma^2/n VAR(Xˉ)=E(Xjˉ−E(Xˉ))2=σ2/n 可见,可以根据 V A R ( X ˉ ) VAR(\bar{X}) VAR(Xˉ)推断 σ \sigma σ的值。
与投票法不同的是,Bagging不仅仅集成模型最后的预测结果,同时采用一定策略来影响基模型训练,保证基模型可以服从一定的假设。在上一章中我们提到,希望各个模型之间具有较大的差异性,而在实际操作中的模型却往往是同质的,因此一个简单的思路是通过不同的采样增加模型的差异性。
Bagging的核心在于自助采样(bootstrap)这一概念,即有放回的从数据集中进行采样,也就是说,同样的一个样本可能被多次进行采样。一个自助采样的小例子是我们希望估计全国所有人口年龄的平均值,那么我们可以在全国所有人口中随机抽取不同的集合(这些集合可能存在交集),计算每个集合的平均值,然后将所有平均值的均值作为估计值。
首先我们随机取出一个样本放入采样集合中,再把这个样本放回初始数据集,重复K次采样,最终我们可以获得一个大小为K的样本集合。同样的方法, 我们可以采样出T个含K个样本的采样集合,然后基于每个采样集合训练出一个基学习器,再将这些基学习器进行结合,这就是Bagging的基本流程。
对回归问题的预测是通过预测取平均值来进行的。对于分类问题的预测是通过对预测取多数票预测来进行的。Bagging方法之所以有效,是因为每个模型都是在略微不同的训练数据集上拟合完成的,这又使得每个基模型之间存在略微的差异,使每个基模型拥有略微不同的训练能力。
Bagging同样是一种降低方差的技术,因此它在不剪枝决策树、神经网络等易受样本扰动的学习器上效果更加明显。在实际的使用中,加入列采样的Bagging技术对高维小样本往往有神奇的效果。
这个有更完整的实例