文章预览
基尼指数(Gini index)是CART决策树用来选择划分属性的重要指标! 1.定义 基尼值用于度量数据集的纯度,反映的是从数据集中随机抽取两个样本,其类别标记不一致的概率。而基尼指数表示在样本集合中一个随机选中的样本被分错的概率。 2.性质 基尼值越小,则数据集的纯度越高。而基尼指数越小表示集合中被选中的样本被分错的概率越小,即集合的纯度越高。 3.应用 在构建决策树时,通过计算每个属性的基尼指数,可以选择具有最小基尼指数的属性进行划分,即使用基尼指数作为划分属性的指标。 4.计算公式 数据集 的纯度可用基尼值来度量: 反映了从数据集 中随机抽取两个样本,其类别标记不一致的概率。因此, 越小,则数据集 的纯度越高。属性 的基尼指数定义为: 于是,在候选属性集合 中,选择那个使得划分后基尼指数最小的属性作
………………………………