专栏名称: GISer last
GISer last 公众号 主要以分享互联网数据资源为主。也分享过GIS、FME等技术教程方法。我个人对于大数据资源、可视化制作、地图制图等方面有很大兴趣,也会分享个人的一些应用和教程。
今天看啥  ›  专栏  ›  GISer last

Python实现基尼指数计算

GISer last  · 公众号  ·  · 2024-07-22 20:14

文章预览

基尼指数(Gini index)是CART决策树用来选择划分属性的重要指标! 1.定义 基尼值用于度量数据集的纯度,反映的是从数据集中随机抽取两个样本,其类别标记不一致的概率。而基尼指数表示在样本集合中一个随机选中的样本被分错的概率。 2.性质 基尼值越小,则数据集的纯度越高。而基尼指数越小表示集合中被选中的样本被分错的概率越小,即集合的纯度越高。 3.应用 在构建决策树时,通过计算每个属性的基尼指数,可以选择具有最小基尼指数的属性进行划分,即使用基尼指数作为划分属性的指标。 4.计算公式 数据集 的纯度可用基尼值来度量: 反映了从数据集 中随机抽取两个样本,其类别标记不一致的概率。因此, 越小,则数据集 的纯度越高。属性 的基尼指数定义为: 于是,在候选属性集合 中,选择那个使得划分后基尼指数最小的属性作 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览