专栏名称: 学术头条
致力于科学传播和学术分享,关注计算机科学、认知科学、人工智能科学、神经科学、脑科学等学科领域。我们从跨学科的角度,围绕“认知智能”向科学界和大众介绍相关领域的前沿话题和深度解读。
今天看啥  ›  专栏  ›  学术头条

清华、国科大、智谱团队提出LongReward:利用AI反馈改进长文本大语言模型

学术头条  · 公众号  ·  · 2024-11-11 20:40
    

文章预览

长文本(Long-context)大模型性能的优劣,在很大程度上取决于其能否全面理解长上下文场景下的复杂信息。 然而, 现有的合成有监督微调(SFT)数据由于缺少人类核验,往往会影响长文本大模型的性能 ,导致 SFT 模型存在固有的缺陷,如幻觉和无法充分利用上下文信息等。 原则上,通过适当的奖励信号进行强化学习已被证明能有效地减少 SFT 模型的缺陷,使其更好地与人类偏好对齐,但 在长上下文场景下如何获得可靠的奖励信号,仍是一个未被探索的问题 。 如今,来自清华大学、中国科学院大学和智谱的研究团队在这一领域迈出了重要一步—— 他们提出了一个名为 LongReward 的新方法,旨在 利用现有的大语言模型(LLM)从四个人类价值维度(帮助性、逻辑性、忠实性和完整性)为长文本模型的回复提供奖励,并结合强化学习进一步提升模型的 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览