专栏名称: 量子位
վ'ᴗ' ի 追踪AI行业和技术动态,这里更快一步!关注我们,回复“今天”,更多大新闻等你来发现
今天看啥  ›  专栏  ›  量子位

GPT-4o mini排名雪崩,大模型竞技场规则更新,奥特曼刷分小技巧无效了

量子位  · 公众号  · AI  · 2024-08-31 12:03

文章预览

梦晨 发自 凹非寺 量子位 | 公众号 QbitAI 大模型竞技场规则更新, GPT-4o mini排名立刻雪崩,跌出前10 。 新榜单对AI回答的 长度和风格等特征做了降权处理 ,确保分数反映模型真正解决问题的能力。 想用漂亮的格式、增加小标题数量等技巧讨好用户、刷榜,现在统统没用了。 在新规则下,奥特曼的 GPT-4o mini 、马斯克的 Grok-2系列 排名显著下降,谷歌 Gemini-1.5-flash 小模型 也有所回落。 Claude系列 、 Llama-3.1-405b 大模型分数则纷纷上涨。 只计算困难任务(Hard Prompt)的情况下,大模型在风格控制榜单中的优势更加明显。 此前GPT-4o mini小模型一度登顶,与GPT-4o满血版并列第一,与网友的体感明显不符。 Lmsys大模型竞技场这个一度被Karpathy推荐的评价标准,口碑也跌落到“只能反映用户喜好而不是模型能力了”。 Lmsys组织痛定思痛,先是公开了GPT-4o mini参与 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览