文章预览
9.2.1 CART算法 以上决策树算法,基于熵涉及大量对数运算,只能做分类。1984年,Breiman等提出了CART(分类回归树)算法,用 Gini 指数来代替熵,递归地构建二叉树。 离散型随机变量 X 的概率分布为 ,则其 Gini指数 定义为 图 9.2: Gini系数与熵之半对比 可见,Gini 指数和熵之半的曲线非常接近,仅仅在 45 度角附近误差稍大。因此,Gini 指数可以做为熵的一个近似替代。 对于数据集 D, 表示第 k 类样本所占比例,则$D$的 Gini 指数 为: calGini = function ( Y ) { # 计算 Y 分组下的 Gini 指数 p = table (Y) / length (Y) 1 - sum (p ^ 2 ) } 若数据集 D $根据特征 A 是否取某一可能值 a 被分割成 两部分,则在特征 A 条件下,数据集 D 的条件 Gini 指数定义为: Gini(D) 表示数据集 D 的不确定性, Gini(D, A) 表示经 A = a 分割后数据集 D 的不确定性。Gini 指数越大
………………………………