专栏名称: R语言与数学建模
用最tidy的方式学习R语言! 细致透彻讲解数学建模算法与编程实现! 欢迎关注我的知乎(张敬信)
今天看啥  ›  专栏  ›  R语言与数学建模

【R-mlr3新书节选】决策树II:CART分类

R语言与数学建模  · 公众号  ·  · 2024-07-03 15:06

文章预览

9.2.1 CART算法 以上决策树算法,基于熵涉及大量对数运算,只能做分类。1984年,Breiman等提出了CART(分类回归树)算法,用 Gini 指数来代替熵,递归地构建二叉树。 离散型随机变量 X 的概率分布为 ,则其  Gini指数  定义为 图 9.2: Gini系数与熵之半对比 可见,Gini 指数和熵之半的曲线非常接近,仅仅在 45 度角附近误差稍大。因此,Gini 指数可以做为熵的一个近似替代。 对于数据集 D, 表示第 k 类样本所占比例,则$D$的  Gini 指数 为: calGini = function ( Y ) { # 计算 Y 分组下的 Gini 指数 p = table (Y) / length (Y) 1 - sum (p ^ 2 ) } 若数据集 D $根据特征 A 是否取某一可能值 a 被分割成  两部分,则在特征 A 条件下,数据集 D 的条件 Gini 指数定义为: Gini(D) 表示数据集 D 的不确定性, Gini(D, A) 表示经 A = a 分割后数据集 D 的不确定性。Gini 指数越大 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览