ID3 ID4.5 CART 决策树剪枝 Bagging Boosting GBDT XGBoost 总结
ID3ID3是用信息增益作为分割的准则,信息增益=信息熵-条件熵:其中∣Ck∣D\frac{|C_k|}{D}D∣Ck∣表示第k类样本的数据占数据集D样本总数的比例。假设每个记录有一个属性“ID”,若按照ID来进行分割的话,由于ID是唯一的,因此在这一个属性上,能够取得的特征值等于样本的数目,也就是说ID的特征值很多。那么无论以哪个ID为划分,叶子结点的值只会有一个,纯度很大,得到的信息增益会很大