长期跟踪关注统计学、数据挖掘、机器学习算法、深度学习、人工智能技术与行业发展动态,分享Python、机器学习等技术文章。回复机器学习有惊喜资料。
今天看啥  ›  专栏  ›  机器学习算法与Python实战

机器学习数据预处理中的数据泄露问题!

机器学习算法与Python实战  · 公众号  ·  · 2024-11-09 10:19

文章预览

来源DeepHub 在机器学习教学实践中,我们常会遇到这样一个问题:"模型表现非常出色,准确率超过90%!但当将其提交到隐藏数据集进行测试时,效果却大打折扣。问题出在哪里?"这种情况几乎总是与数据泄露有关。 当测试数据在数据准备阶段无意中泄露(渗透)到训练数据时,就会发生数据泄露。这种情况经常出现在常规数据处理任务中,而你可能并未察觉。当泄露发生时,模型会从本不应看到的测试数据中学习,导致测试结果失真。 数据泄露的定义 数据泄露是机器学习中的一个常见问题,发生在不应被模型看到的数据(如测试数据或未来数据)意外地被用于训练模型时。这可能导致模型过拟合,并在新的、未见数据上表现不佳。 我们将聚焦以下数据预处理步骤中的数据泄露问题。并将结合 scikit-learn 中的具体预处理方法,并在文章末尾给出代码示例。 缺失值填充 在 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览