今天看啥  ›  专栏  ›  新机器视觉

机器学习中各种树模型总结

新机器视觉  · 公众号  · 科技自媒体  · 2024-10-05 21:20

主要观点总结

文章总结了关于决策树、随机森林、GBDT和XGBoost等机器学习模型的知识,包括它们的原理、应用和优势。

关键观点总结

关键观点1: 决策树

是一种有监督分类模型,以信息增益为准则选择最优划分属性,分为ID3、C4.5和CART等算法。

关键观点2: 随机森林

是一个多决策树的组合分类器,通过构建多个决策树进行投票,具有处理过大或过小的数据集、处理多源异构数据的能力。

关键观点3: GBDT和XGBoost

都是以决策树为基学习器的集成学习算法。GBDT是迭代树,每一棵树学习的是之前所有树结论和的残差。XGBoost则通过二阶泰勒展开损失函数,并加入正则项控制模型复杂度,支持自定义代价函数,具有并行化处理、处理缺失值等特性。


文章预览

作者:ChrisCao@知乎 https://zhuanlan.zhihu.com/p/75468124 编辑:好奇心log 最近还在深化机器学习算法,所以分享一篇关于决策树的总结文章,从普通的决策树到集成学习随机森林、GBDT、XGBoost,总结的还是非常到位的。 一. 决策树 决策树是一个有监督分类模型,本质是选择一个最大信息增益的特征值进行树的分割,直到达到结束条件或叶子节点纯度达到阈值。下图是决策树的一个示例图: 根据分割指标和分割方法,可分为:ID3、C4.5、CART算法。 1.ID3算法:以信息增益为准则来选择最优划分属性 信息增益的计算是基于信息熵(度量样本集合纯度的指标)  信息熵越小,数据集   的纯度越大 假设基于数据集   上建立决策树,数据有   个类别: 公式(1)中:  表示第K类样本的总数占数据集D样本总数的比例。 公式(2)表示是以特征A作为分割的属性,得到的信 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览