通过随机森林将弱分类器集成为强分类器

直观上,随机森林可以视为多颗决策树的集成。**集成学习的基本理念就是将弱分类器集成为鲁棒性更强的模型,集成后具备更好的泛化误差,不易产生过拟合现象

随机森林算法可以概况为四个简单的步骤:
1. 使用bootstrap抽样方法随机选择N个样本用于训练
2. 使用第1步选定的样本构造一颗决策树,节点划分规则如下:

-------2.1. 不重复地随机选择d个特征\n",
-------2.2. 根据目标函数的要求,如最大化信息增益,使用选定的特征对节点进行划分
-------2.3. 重复上述过程1~2000次\n",
-------2.4. 汇总每颗决策树的类标进行多数投票

虽然随机森林没有决策树那样良好的可解释性,但其显著的优势在于不必担心超参值的选择。我们通常不需要对随机森林进行剪枝,因为相对于单颗决策树来说,集成模型对噪声的鲁棒性更好
在实践中,我们真正需要关心的参数是为构建随机森林所需的决策树数量。通常情况下,决策树的数量越多,随机森林整体的分类表现就越好,但同时也相应地增加了计算成本
尽管在实践中不常见,但是随机森林中可优化的其他超参分别是:bootstrap抽样的数量以及在节点划分中使用的特征数量,
通过选择bootstrap抽样中样本数量n,我们可以控制随机森林的偏差与方差权衡的问题。如果n值较大,就降低了随机性,会导致过拟合,反之n值较小则会导致欠拟合
包括RandomForestClassifier在内的大多数对随机森林的实现中,bootstrap抽样的数量一般与原始训练集中样本的数量相同,因为这样在这种偏差与方差方面一般会有一个好的均衡结果
而对于在每次节点划分中用到的特征数量m,我们选择一个比训练集中特征总量小的值。

你可能感兴趣的:(通过随机森林将弱分类器集成为强分类器)