连接人工智能技术人才和产业人才的交流平台
今天看啥  ›  专栏  ›  机器学习研究组订阅

OpenAI o1全方位SOTA登顶lmsys排行榜!数学能力碾压Claude和谷歌模型,o1-mini并列第一

机器学习研究组订阅  · 公众号  · AI  · 2024-09-19 18:47

文章预览

万众瞩目的最新模型OpenAI o1,终于迎来了lmsys竞技场的测评结果。 不出意外,o1-preview在各种领域绝对登顶,超过了最新版的GPT-4o,在数学、困难提示和编码领域表现出色; 而o1-mini虽然名字中自带「mini」,但也和最新版的GPT-4o并列综合排名第二,困难提示、编码、数学等领域和o1-preview同样登顶第一。 果然,o1模型不愧是通用推理领域的新王。 lmsys社区官方发推表示,这项测试结果收集了6k+社区投票,并将OpenAI这次取得的进展描述为「令人难以置信的里程碑」。 单纯看排行榜的排名可能不够具有说服力,于是lmsys特意统计了总榜上前25名模型的1v1胜率。 可以看到,o1-preview对所有模型的胜率都超过了50%,对比04-09版GPT-4-Turbo的胜率最高,达到了88%。 o1-mini如果对战o1-preview,胜率为46%,对09-03版GPT-4o的胜率为48%,可以说是大体平手、稍逊一筹的状态。 值 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览