文章预览
长文本(Long-context)大模型性能的优劣,在很大程度上取决于其能否全面理解长上下文场景下的复杂信息。 然而, 现有的合成有监督微调(SFT)数据由于缺少人类核验,往往会影响长文本大模型的性能 ,导致 SFT 模型存在固有的缺陷,如幻觉和无法充分利用上下文信息等。 原则上,通过适当的奖励信号进行强化学习已被证明能有效地减少 SFT 模型的缺陷,使其更好地与人类偏好对齐,但 在长上下文场景下如何获得可靠的奖励信号,仍是一个未被探索的问题 。 如今,来自清华大学、中国科学院大学和智谱的研究团队在这一领域迈出了重要一步—— 他们提出了一个名为 LongReward 的新方法,旨在 利用现有的大语言模型(LLM)从四个人类价值维度(帮助性、逻辑性、忠实性和完整性)为长文本模型的回复提供奖励,并结合强化学习进一步提升模型的
………………………………