RF GBDT LR调参

https://zhuanlan.zhihu.com/p/56940098

 

调参对于随机森林来讲,不会发生很大的波动,即使采用默认值,也可以保持不错的效果。

 

对于随机森林,比较重要的参数有2个:决策树数量;每个决策树最多使用多少特征。

对于决策树数量参数:

决策树数量越多,效果越好越稳定。但是要在合理范围内,当决策树数量增大到一定数量后,效果基本保持不变。但是随着决策树数量的增大,对硬件的性能要求越高。决策树的数量一般在10-100,可以观察随着决策树数量的增加,误差下降不是很明显了,差不多就是这个参数了。

 

对于特征数量:

每个决策树用到的特征越多,效果肯定越好,但是对于整个随机森林模型来说,希望各个决策树之间保持一定的差异性。并且单个决策树的特征越多,消耗的性能越大。

常用选项:开根号;log2;百分之20(当然也可以其他比例);

一般参数:分类问题开根号,回归问题三分之一。

在资源和时间不允许情况下,可以先这样设置。但具体到每个具体应用场景,不一定合适。

 

其他的参数还有========================

决策树最大深度:

当样本数量和特征数量比较多时,如果不对决策树最大深度做限制,可能会使得决策树比较大,训练速度慢,容易过拟合。

 

最大叶子结点数量:

一般来讲,叶子结点数量越多,效果越好,但是这样容易造成过拟合。

 

叶子结点包含的最少样本数量:

如果该叶子结点的样本数量少于最低阈值,则剪掉这个叶子结点以及兄弟节点,只保留他的父节点。

 

最小节点分裂样本数:

只有该节点的样本数量大于最低阈值,才可以进行分裂。

 

节点划分标准:

可以选择信息增益;gini系数;

 

最后参数具体怎么设置,可以通过网格搜索。

 

参考参数

setCheckpointInterval(10).
setMaxBins(40).
setMinInstancesPerNode(100).
setMaxDepth(20).
setNumTrees(100)

 

GBDT的参数设置和RF差不多,GBDT多了一个学习步长参数。

 

LR参数

https://blog.csdn.net/qq_38923076/article/details/82925775

 

 

 

你可能感兴趣的:(数据挖掘)