主要观点总结
文章总结了关于决策树、随机森林、GBDT和XGBoost等机器学习模型的知识,包括它们的原理、应用和优势。
关键观点总结
关键观点1: 决策树
是一种有监督分类模型,以信息增益为准则选择最优划分属性,分为ID3、C4.5和CART等算法。
关键观点2: 随机森林
是一个多决策树的组合分类器,通过构建多个决策树进行投票,具有处理过大或过小的数据集、处理多源异构数据的能力。
关键观点3: GBDT和XGBoost
都是以决策树为基学习器的集成学习算法。GBDT是迭代树,每一棵树学习的是之前所有树结论和的残差。XGBoost则通过二阶泰勒展开损失函数,并加入正则项控制模型复杂度,支持自定义代价函数,具有并行化处理、处理缺失值等特性。
文章预览
作者:ChrisCao@知乎 https://zhuanlan.zhihu.com/p/75468124 编辑:好奇心log 最近还在深化机器学习算法,所以分享一篇关于决策树的总结文章,从普通的决策树到集成学习随机森林、GBDT、XGBoost,总结的还是非常到位的。 一. 决策树 决策树是一个有监督分类模型,本质是选择一个最大信息增益的特征值进行树的分割,直到达到结束条件或叶子节点纯度达到阈值。下图是决策树的一个示例图: 根据分割指标和分割方法,可分为:ID3、C4.5、CART算法。 1.ID3算法:以信息增益为准则来选择最优划分属性 信息增益的计算是基于信息熵(度量样本集合纯度的指标) 信息熵越小,数据集 的纯度越大 假设基于数据集 上建立决策树,数据有 个类别: 公式(1)中: 表示第K类样本的总数占数据集D样本总数的比例。 公式(2)表示是以特征A作为分割的属性,得到的信
………………………………