文章预览
特征重要性是解释机器学习模型最常用的工具。这导致我们常常认为特征重要性等同于特征好坏。 事实并非如此。 当一个特征很重要时,它仅仅意味着模型发现它在训练集中很有用。但是,这并不能说明该特征在新数据上的泛化能力!。 为了说明这一点,我们需要区分两个概念: 预测贡献:变量在模型预测中的权重。这是由模型在训练集中发现的模式决定的。这相当于特征重要性。 错误贡献:模型在暂存数据集上的错误中,变量所占的权重。这可以更好地反映特征在新数据上的表现。 在本文中,我将解释在分类模型中计算这两个量背后的逻辑。我还将举例说明在特征选择中使用 "误差贡献 "比使用 "预测贡献" 会得到更好的结果。 假设我们有一个分类问题,想要预测一个人的收入是低于还是高于 10k。还假设我们已经有了模型的预测结果: 实际
………………………………