文章预览
过 度拟合最初是在统计学数据挖掘领域中的概念,如今在机器学习、量化领域的地位也非常重要。 什么是模型过度拟合? 当我们在构建模型时,一般将样本分成三部分, 训练集(trainset)和 验证集(validationset)以及测试集(te stset)。 其中 训练集 是用来估计模型的, 验证集 是用来确定网络结构或者控制模型复杂程度的参数,而 测试集 则是检验最终选择最优的模型的性能如何,通常数据以 80:10:10 或 70:20:10 的比率分配。 模型构建过程中,每个时间点中使用验证数据测试当前已构建的模型,得到模型的损失和准确率以及验证损失和验证准确率。 模型构建完成后,使用测试数据对模型进行测试并得到准确率。如果准确率和验证准确率存在较大的差异,就说明该模型是过度拟合了。 通俗来说,模型在训练数据上表现非常好,但是对样本外的数据进行测试时
………………………………