专栏名称: FightingCV
一个专注于分享计算机视觉、多模态机器学习方向前沿论文,解答常见科研问题,分享好用科研工具的公众号。努力努力再努力,瑞思拜!
今天看啥  ›  专栏  ›  FightingCV

Arena Learning : 通过模拟聊天机器人竞技场为 LLM 后训练构建数据飞轮

FightingCV  · 公众号  ·  · 2024-10-21 09:00
    

文章预览

摘要 评估大型语言模型 (LLM) 的有效性面临重大挑战。  在在线聊天机器人竞技场中进行人工标注的战斗的方法是一种非常有效的评估技术。  然而,这种方法受到人工标注所需的成本和时间的限制。  在本文中,我们介绍了  Arena Learning ,这是一种创新的离线策略,旨在使用 AI 驱动的标注来模拟这些竞技场战斗以评估战斗结果,从而通过监督微调和强化学习来促进目标模型的持续改进。  Arena Learning  包含两个关键要素。  首先,它通过 WizardArena 确保精确的评估并在离线模拟和在线竞赛之间保持一致性,WizardArena 是一个经过精心设计的离线测试集,用于准确预测各种模型的 Elo 排名。  我们的结果表明,WizardArena 的预测与在线竞技场的预测高度一致。  其次,它涉及根据战斗结果和改进的模型来持续改进训练数据。  我们建立了一个数据飞轮, ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览