注册
登录
专栏名称:
机器学习研究组订阅
连接人工智能技术人才和产业人才的交流平台
我也要提交微信公众号
今天看啥
微信公众号rss订阅, 微信rss, 稳定的RSS源
微信公众号RSS订阅方法
B站投稿RSS订阅方法
微博RSS订阅方法
微博搜索关键词订阅方法
豆瓣日记 RSS订阅方法
目录
相关文章推荐
机器之心
·
这才是真・开源模型!公开「后训练」一切,性能 ...
·
2 天前
黄建同学
·
看起来很厉害,可以无限长度!#ai##ai视 ...
·
2 天前
宝玉xp
·
转:cloudflare worker ...
·
4 天前
黄建同学
·
#英伟达##英伟达Blackwell芯片已全 ...
·
4 天前
爱可可-爱生活
·
【M2DGR-Benchmark:基于M2D ...
·
5 天前
今天看啥
›
专栏
›
机器学习研究组订阅
OpenAI o1全方位SOTA登顶lmsys排行榜!数学能力碾压Claude和谷歌模型,o1-mini并列第一
机器学习研究组订阅
·
公众号
·
AI
· 2024-09-19 18:47
文章预览
万众瞩目的最新模型OpenAI o1,终于迎来了lmsys竞技场的测评结果。 不出意外,o1-preview在各种领域绝对登顶,超过了最新版的GPT-4o,在数学、困难提示和编码领域表现出色; 而o1-mini虽然名字中自带「mini」,但也和最新版的GPT-4o并列综合排名第二,困难提示、编码、数学等领域和o1-preview同样登顶第一。 果然,o1模型不愧是通用推理领域的新王。 lmsys社区官方发推表示,这项测试结果收集了6k+社区投票,并将OpenAI这次取得的进展描述为「令人难以置信的里程碑」。 单纯看排行榜的排名可能不够具有说服力,于是lmsys特意统计了总榜上前25名模型的1v1胜率。 可以看到,o1-preview对所有模型的胜率都超过了50%,对比04-09版GPT-4-Turbo的胜率最高,达到了88%。 o1-mini如果对战o1-preview,胜率为46%,对09-03版GPT-4o的胜率为48%,可以说是大体平手、稍逊一筹的状态。 值 ………………………………
原文地址:
访问原文地址
快照地址:
访问文章快照
总结与预览地址:
访问总结与预览
分享到微博
推荐文章
机器之心
·
这才是真・开源模型!公开「后训练」一切,性能超越Llama 3.1 Instruct
2 天前
黄建同学
·
看起来很厉害,可以无限长度!#ai##ai视频# 这个视频例子是-20241123083849
2 天前
宝玉xp
·
转:cloudflare worker AI 现在所有的生图模型-20241121164452
4 天前
黄建同学
·
#英伟达##英伟达Blackwell芯片已全面投产#国外分析师B-20241121092656
4 天前
爱可可-爱生活
·
【M2DGR-Benchmark:基于M2DGR和M2DGR-p-20241120131808
5 天前
邮票暗记
·
中国邮政,这次的瓜太猛了
4 月前