专栏名称: arXiv每日学术速递
跟踪计算机视觉、人工智能、机器学习、NLP、语音识别、量化金融等热门方向学术信息
今天看啥  ›  专栏  ›  arXiv每日学术速递

Arena Learning : 通过模拟聊天机器人竞技场为 LLM 后训练构建数据飞轮

arXiv每日学术速递  · 公众号  ·  · 2024-10-21 11:28

文章预览

摘要 评估大型语言模型 (LLM) 的有效性面临重大挑战。 在在线聊天机器人竞技场中进行人工标注的战斗的方法是一种非常有效的评估技术。 然而,这种方法受到人工标注所需的成本和时间的限制。 在本文中,我们介绍了  Arena Learning ,这是一种创新的离线策略,旨在使用 AI 驱动的标注来模拟这些竞技场战斗以评估战斗结果,从而通过监督微调和强化学习来促进目标模型的持续改进。  Arena Learning  包含两个关键要素。 首先,它通过 WizardArena 确保精确的评估并在离线模拟和在线竞赛之间保持一致性,WizardArena 是一个经过精心设计的离线测试集,用于准确预测各种模型的 Elo 排名。 我们的结果表明,WizardArena 的预测与在线竞技场的预测高度一致。 其次,它涉及根据战斗结果和改进的模型来持续改进训练数据。 我们建立了一个数据飞轮,通过根 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览