Arena Learning : 通过模拟聊天机器人竞技场为 LLM 后训练构建数据飞轮

arXiv每日学术速递 · 公众号 · · 2024-10-21 11:28

文章预览

摘要评估大型语言模型 (LLM) 的有效性面临重大挑战。在在线聊天机器人竞技场中进行人工标注的战斗的方法是一种非常有效的评估技术。然而，这种方法受到人工标注所需的成本和时间的限制。在本文中，我们介绍了 Arena Learning ，这是一种创新的离线策略，旨在使用 AI 驱动的标注来模拟这些竞技场战斗以评估战斗结果，从而通过监督微调和强化学习来促进目标模型的持续改进。 Arena Learning 包含两个关键要素。首先，它通过 WizardArena 确保精确的评估并在离线模拟和在线竞赛之间保持一致性，WizardArena 是一个经过精心设计的离线测试集，用于准确预测各种模型的 Elo 排名。我们的结果表明，WizardArena 的预测与在线竞技场的预测高度一致。其次，它涉及根据战斗结果和改进的模型来持续改进训练数据。我们建立了一个数据飞轮，通过根 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

武志红 · 像养植物一样，去养育你的孩子

3 小时前

武志红 · 为什么你不敢做真实的自己？

2 天前

简单心理 · TA适合当你的终身伴侣吗？

2 天前

武志红 · 婚姻的真相，你可能一生都不明白

4 天前

老张投研 · 300811，半导体又一个洼地，永续奔跑10年的公司！

4 天前

老张投研 · 300811，半导体又一个洼地，永续奔跑10年的公司！

4 天前

游理游据研究院 · 会议纪要：游戏行业追踪报告240704

4 月前

科奖中心 · 2024年度国家自然科学基金委员会与韩国国家研究基金会合作研究项目指南

4 月前