GPT-4o mini排名雪崩，大模型竞技场规则更新，奥特曼刷分小技巧无效了

量子位 · 公众号 · AI · 2024-08-31 12:03

文章预览

梦晨发自凹非寺量子位 | 公众号 QbitAI 大模型竞技场规则更新， GPT-4o mini排名立刻雪崩，跌出前10 。新榜单对AI回答的长度和风格等特征做了降权处理，确保分数反映模型真正解决问题的能力。想用漂亮的格式、增加小标题数量等技巧讨好用户、刷榜，现在统统没用了。在新规则下，奥特曼的 GPT-4o mini 、马斯克的 Grok-2系列排名显著下降，谷歌 Gemini-1.5-flash 小模型也有所回落。 Claude系列、 Llama-3.1-405b 大模型分数则纷纷上涨。只计算困难任务（Hard Prompt）的情况下，大模型在风格控制榜单中的优势更加明显。此前GPT-4o mini小模型一度登顶，与GPT-4o满血版并列第一，与网友的体感明显不符。 Lmsys大模型竞技场这个一度被Karpathy推荐的评价标准，口碑也跌落到“只能反映用户喜好而不是模型能力了”。 Lmsys组织痛定思痛，先是公开了GPT-4o mini参与 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

爱可可-爱生活 · 提出DemoStart方法，使用仿真中少量低质量演示及简单的二元-20240916091235

20 小时前

人工智能那点事 · 唐尚珺的大学室友全部申请搬离宿舍？最新回应→

2 天前

爱可可-爱生活 · 提出歌曲生成系统SongCreator，使用双序列语言模型和注意-20240912055932

4 天前

黄建同学 · 这个真的非常不错↓从头开始构建LLMs：3 小时教程Buildi-20240910224445

6 天前

爱可可-爱生活 · 【iText2KG：利用大型语言模型增量构建知识图谱的工具，具备-20240910132137

6 天前