OpenAI o1全方位SOTA登顶lmsys排行榜！数学能力碾压Claude和谷歌模型，o1-mini并列第一

机器学习研究组订阅 · 公众号 · AI · 2024-09-19 18:47

文章预览

万众瞩目的最新模型OpenAI o1，终于迎来了lmsys竞技场的测评结果。不出意外，o1-preview在各种领域绝对登顶，超过了最新版的GPT-4o，在数学、困难提示和编码领域表现出色；而o1-mini虽然名字中自带「mini」，但也和最新版的GPT-4o并列综合排名第二，困难提示、编码、数学等领域和o1-preview同样登顶第一。果然，o1模型不愧是通用推理领域的新王。 lmsys社区官方发推表示，这项测试结果收集了6k+社区投票，并将OpenAI这次取得的进展描述为「令人难以置信的里程碑」。单纯看排行榜的排名可能不够具有说服力，于是lmsys特意统计了总榜上前25名模型的1v1胜率。可以看到，o1-preview对所有模型的胜率都超过了50%，对比04-09版GPT-4-Turbo的胜率最高，达到了88%。 o1-mini如果对战o1-preview，胜率为46%，对09-03版GPT-4o的胜率为48%，可以说是大体平手、稍逊一筹的状态。值 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

机器之心 · 这才是真・开源模型！公开「后训练」一切，性能超越Llama 3.1 Instruct

2 天前

黄建同学 · 看起来很厉害，可以无限长度！#ai##ai视频# 这个视频例子是-20241123083849

2 天前

宝玉xp · 转：cloudflare worker AI 现在所有的生图模型-20241121164452

4 天前

黄建同学 · #英伟达##英伟达Blackwell芯片已全面投产#国外分析师B-20241121092656

4 天前

爱可可-爱生活 · 【M2DGR-Benchmark：基于M2DGR和M2DGR-p-20241120131808

5 天前

邮票暗记 · 中国邮政，这次的瓜太猛了

4 月前