RF详解以及常见面试题

学习RF的心得体会以及搜集的一些面试题

  • RF
    • 数据集随机
    • 节点特征随机
  • RF相关面试题
    • 随机森林与SVM的比较
    • RF抗过拟合强的原因
    • RF和GBDT的区别

RF

之前说过了决策树,试想一下如果有很多千姿百态的决策树组成了一个森林,那么以每个树的预测结果投票得到最后的模型输出的话,是不是能得到一个更加鲁棒,抗过拟合能力比较好的模型了。
回顾一下决策树生成的过程,重复对一个数据集生成决策树的话,树形是确定的,也就是说每次生成的树是一样的,这样的话就达不到生成千姿百态的决策树再组成森林的目的了;同样的决策树组成森林结果是不变的,所以这个时候就需要增加一点随机性来干扰树的生成过程。

数据集随机

RF可以认为是bagging+决策树的产物,对于森林中的每颗决策树,用来训练的数据集是不同的,每次按照有放回的采样方法得到一个和原始数据等大的数据集(这里又出现了一个神奇的数字,36.8%也就是1/e的数据不会被选取到),未被选取的数据可以作为验证集对泛化性能做包外估计(oob)。

节点特征随机

随机森林的随机操作还没有完,除了每棵树用的数据集不同,其生长过程也是充满了随机和意外,这也是RF泛化误差低于单纯的bagging+决策树的原因,正常的决策树分裂节点时是从所有的属性中寻找基尼系数最好的;而RF就充满以外了,它会从节点属性中先随机选出d个属性,再从这里面选择基尼系数最好的,这种思想也符合集成学习让基学习器不同的理念。
RF详解以及常见面试题_第1张图片
上图来自西瓜书,可以看到RF在基分类器数量不够时,因为其随机性性能会下降,但是到了一点程度就体现出其鲁棒性和抗过拟合的优势了。

RF相关面试题

随机森林与SVM的比较

SVM总是离不开被拉出来比较的命运

  • RF不需要调节过多的参数,而SVM,有非常多超参数需要调整,如选择最合适的核函数,正则惩罚等。
  • 很容易可以得到一个又好且具鲁棒性的模型,所以RF一般当个baseline作为比较,不知道数据什么分布,什么特点的话总可以用RF先试试。
  • RF很容易并行生成基学习器。

RF抗过拟合强的原因

随机对数据集的采样和分裂特征的随机选择保证了随机性,同时采用了Bagging集成策略,降低了输出的结果的方差,具有很好的抗过拟合能力。

RF和GBDT的区别

RF可以看作bagging+决策树
GBDT可以看作boosting+决策树
具体区别再讲bagging和boosting区别时再提。

你可能感兴趣的:(ML,决策树,机器学习)