文章预览
© 作 者 |陈杰 机 构 | 中 国 人 民 大 学 研 究 方 向 |自然语言处理、 大 语 言 模 型 合成数据被提出作为解决训练大语言模型中高质量数据稀缺问题的一种方案。研究表明,合成数据可以有效提高大语言模型在下游基准测试中的性能。然而,尽管合成数据具有潜在的优势,但分析表明合成数据内在的格式统一性和重复性可能导致模式过拟合,并引起输出分布的显著变化,从而降低模型的指令遵循能力。本研究对合成数据,特别是合成问答对的固有缺陷进行了全面分析,并提出了一种基于遗忘学习的方法来缓解这些缺陷。实验证明,我们的方法可以在不影响基准测试性能的情况下,以较低成本逆转模型指令遵循能力下降的问题。我们的研究为合成数据的有效使用提供了关键见解,旨在推动更为鲁棒和高效的大语言模型训练 。 文章也同步发布
………………………………