专栏名称: 学术头条

致力于科学传播和学术分享，关注计算机科学、认知科学、人工智能科学、神经科学、脑科学等学科领域。我们从跨学科的角度，围绕“认知智能”向科学界和大众介绍相关领域的前沿话题和深度解读。

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词RSS订阅方法

知网期刊RSS订阅方法

清华、国科大、智谱团队提出LongReward：利用AI反馈改进长文本大语言模型

学术头条 · 公众号 · · 2024-11-11 20:40

文章预览

长文本（Long-context）大模型性能的优劣，在很大程度上取决于其能否全面理解长上下文场景下的复杂信息。然而，现有的合成有监督微调（SFT）数据由于缺少人类核验，往往会影响长文本大模型的性能，导致 SFT 模型存在固有的缺陷，如幻觉和无法充分利用上下文信息等。原则上，通过适当的奖励信号进行强化学习已被证明能有效地减少 SFT 模型的缺陷，使其更好地与人类偏好对齐，但在长上下文场景下如何获得可靠的奖励信号，仍是一个未被探索的问题。如今，来自清华大学、中国科学院大学和智谱的研究团队在这一领域迈出了重要一步—— 他们提出了一个名为 LongReward 的新方法，旨在利用现有的大语言模型（LLM）从四个人类价值维度（帮助性、逻辑性、忠实性和完整性）为长文本模型的回复提供奖励，并结合强化学习进一步提升模型的 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博