用通俗的语言普及最新LLM进展! 欢迎大家推荐论文!
目录
今天看啥  ›  专栏  ›  大语言模型论文跟踪

大模型榜单还能信吗?一个假模型就能登顶排行榜

大语言模型论文跟踪  · 公众号  ·  · 2024-10-13 20:08

文章预览

大模型榜单还能信吗?一个假模型就能登顶排行榜 发布时间:2024 年 10 月 09 日 Cheating Automatic LLM Benchmarks: Null Models Achieve High Win Rates 摘要:自动 LLM 基准测试如 AlpacaEval 2.0、Arena-Hard-Auto 和 MT-Bench,因其成本效益和可扩展性,已成为评估语言模型的热门选择,远胜于人工评估。在这些基准测试中取得高胜率,能大幅提升新模型的推广效果。然而,这种利益可能诱使一些操纵手段,如调整输出长度或风格以提高胜率,尽管已有机制控制这些因素以减少操纵空间。我们发现,即使是一个“空模型”,即始终输出固定且与指令无关的响应,也能在这些基准测试中作弊,达到顶级胜率:AlpacaEval 2.0 上 86.5%的 LC 胜率,Arena-Hard-Auto 上 83.0 分,MT-Bench 上 9.55 分。更甚者,这些作弊输出可转移,因为我们假设基准测试的指令(如 AlpacaEval 2.0 的 805 个样本)是私密的 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览