专栏名称: 新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
今天看啥  ›  专栏  ›  新智元

OpenAI o1全方位SOTA登顶lmsys排行榜!数学能力碾压Claude和谷歌模型,o1-mini并列第一

新智元  · 公众号  · AI  · 2024-09-19 17:34

文章预览

   新智元报道   编辑:乔杨 【新智元导读】 o1模型发布1周,lmsys的6k+投票就将o1-preview送上了排行榜榜首。同时,为了满足大家对模型「IOI金牌水平」的好奇心,OpenAI放出了o1测评时提交的所有代码。 万众瞩目的最新模型OpenAI o1,终于迎来了lmsys竞技场的测评结果。 不出意外,o1-preview在各种领域绝对登顶,超过了最新版的GPT-4o,在数学、困难提示和编码领域表现出色; 而o1-mini虽然名字中自带「mini」,但也和最新版的GPT-4o并列综合排名第二,困难提示、编码、数学等领域和o1-preview同样登顶第一。 果然,o1模型不愧是通用推理领域的新王。 lmsys社区官方发推表示,这项测试结果收集了6k+社区投票,并将OpenAI这次取得的进展描述为「令人难以置信的里程碑」。 单纯看排行榜的排名可能不够具有说服力,于是lmsys特意统计了总榜上前25名模型的1v1胜率 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览