专栏名称: R语言与数学建模
用最tidy的方式学习R语言! 细致透彻讲解数学建模算法与编程实现! 欢迎关注我的知乎(张敬信)
目录
相关文章推荐
今天看啥  ›  专栏  ›  R语言与数学建模

【R-mlr3新书节选】数据集划分、重抽样、嵌套重抽样

R语言与数学建模  · 公众号  ·  · 2024-06-11 22:11
    

文章预览

1.2 如何使用数据集 ...... 1.2.2 数据集划分 将相同的数据用于训练模型和测试性能是一种不好的策略,因为这会导致过于乐观的性能估计。例如,一个过拟合的模型可能只需通过记住训练数据就可以对训练数据进行完美预测,但是对新数据可能只是随机猜测。 所以,数据集(或重抽样副本)通常先要划分为两部分: 训练集、测试集 。 训练集 是训练模型用的,用的时候需要再划分为: -  训练集 :用来训练模型参数的数据集,模型直接根据训练集来调整自身获得更好的预测效果。 -  验证集 :用于在训练过程中验证模型的性能、收敛情况: + 常用于超参数调参/特征选择,根据模型在验证集上的表现决定哪个超参数组合/特征子集拥有最好的性能 + 还可用来监控训练过程中模型是否发生过拟合以判断何时停止训练[1] [1]: 一般来说测试集性能稳定后, ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览