文章预览
大模型榜单还能信吗?一个假模型就能登顶排行榜 发布时间:2024 年 10 月 09 日 Cheating Automatic LLM Benchmarks: Null Models Achieve High Win Rates 摘要:自动 LLM 基准测试如 AlpacaEval 2.0、Arena-Hard-Auto 和 MT-Bench,因其成本效益和可扩展性,已成为评估语言模型的热门选择,远胜于人工评估。在这些基准测试中取得高胜率,能大幅提升新模型的推广效果。然而,这种利益可能诱使一些操纵手段,如调整输出长度或风格以提高胜率,尽管已有机制控制这些因素以减少操纵空间。我们发现,即使是一个“空模型”,即始终输出固定且与指令无关的响应,也能在这些基准测试中作弊,达到顶级胜率:AlpacaEval 2.0 上 86.5%的 LC 胜率,Arena-Hard-Auto 上 83.0 分,MT-Bench 上 9.55 分。更甚者,这些作弊输出可转移,因为我们假设基准测试的指令(如 AlpacaEval 2.0 的 805 个样本)是私密的
………………………………