机器学习-三大SOTA Boosting算法总结和调优

参考书籍:《机器学习 公式推导和代码实现》

书籍页码:P197~205

简介

除了深度学习适用的文本、图像、语音、视频等非结构化数据,对于训练样本较少的结构化数据,Boosting算法仍是第一选择。XGBoost、LightGBM、CatBoost是目前经典的SOTA Boosting算法

算法对比

维度 XGBoost LightGBM CatBoos 说明
算法的继承性 是对GBDT的改进 是对XGBoost的改进 是对XGBoost的改进 三者相比改进前,在速度、精度上均都有所长
模型树的构造方式 使用按层生长的决策树构建策略 使用按叶子生长的决策树构建策略 使用对称树结构 相同点:决策树都是完全二叉树
对类别特征的处理 不能够自动处理类别特征,需要手动处理变成数值后才能输入到模型中 需要给出“类别特征名称”,会自动对齐进行处理 给出“类别特征索引”,通过“目标变量统计”等特征编码方式实现高效处理类别特征 三种算法的代码:P198~P201

超参调优

方法 原理 优缺点 适用场景 模块调用
网格搜索法(grid search) 穷举法,需要事先给定每个超参数的穷举集合 优:简单缺:需要给定集合;优化的超参数不能过多 优化3个及以下的超参数 sklearn中通过model_selection的GridSearchCv实现
随机搜索法(random search) 在指定的超参数集合中随机抽样最优超参数相比网格搜索法,有时会更高效,仅对抽样到的超参数进行实验 优:有时会比网格搜索法更高效缺:不一定可以找到最优的超参数 可以适用于多个超参数 sklearn中通过model_selection的RandomizedSearchCv实现
贝叶斯优化(baysian optimization) 基于高斯过程、贝叶斯原理的参数优化 优化效果最好 可以适用于多个超参数 通过第三方库bayes_opt中的BayesianOptimization实现

结尾

亲爱的读者朋友:感谢您在繁忙中驻足阅读本期内容!您的到来是对我们最大的支持❤️

正如古语所言:"当局者迷,旁观者清"。您独到的见解与客观评价,恰似一盏明灯,能帮助我们照亮内容盲区,让未来的创作更加贴近您的需求。

若此文给您带来启发或收获,不妨通过以下方式为彼此搭建一座桥梁: ✨ 点击右上角【点赞】图标,让好内容被更多人看见 ✨ 滑动屏幕【收藏】本篇,便于随时查阅回味 ✨ 在评论区留下您的真知灼见,让我们共同碰撞思维的火花

我始终秉持匠心精神,以键盘为犁铧深耕知识沃土,用每一次敲击传递专业价值,不断优化内容呈现形式,力求为您打造沉浸式的阅读盛宴。

有任何疑问或建议?评论区就是我们的连心桥!您的每一条留言我都将认真研读,并在24小时内回复解答。

愿我们携手同行,在知识的雨林中茁壮成长,共享思想绽放的甘甜果实。下期相遇时,期待看到您智慧的评论与闪亮的点赞身影✨!

万分感谢您的点赞、收藏⭐、评论️、关注❤️~ 


自我介绍:一线互联网大厂资深算法研发(工作6年+),4年以上招聘面试官经验(一二面面试官,面试候选人400+),深谙岗位专业知识、技能雷达图,已累计辅导15+求职者顺利入职大中型互联网公司。熟练掌握大模型、NLP、搜索、推荐、数据挖掘算法和优化,提供面试辅导、专业知识入门到进阶辅导等定制化需求等服务,助力您顺利完成学习和求职之旅(有需要者可私信联系) 

友友们,自己的知乎账号为“快乐星球”,定期更新技术文章,敬请关注!   

你可能感兴趣的:(机器学习,机器学习,boosting,集成学习,决策树,人工智能)