GPT-4o成为全领域SOTA！基准测试远超Gemini和Claude，多模态功能远超GPT-4

机器学习研究组订阅 · 公众号 · AI · 2024-05-19 18:41

文章预览

OpenAI在发布会上官宣GPT-4o之后，各路大神也开始了对这个新模型的测评，结果就是，GPT-4o在多项基准测试上都展现了SOTA的实力。别家发布会都在画饼，OpanAI却总能开出一种「欲扬先抑」的效果，惊喜全在发布会之后。基准测试结果首先，在LMSys聊天机器人竞技场上的ELO分数排行上，GPT-4o套了一个GPT2聊天机器人的马甲，以一骑绝尘的态势名列第一，评分为1310，和第二名GPT-4-turbo的1253分相比，呈现断档式的提升。再来看多模态领域的基准Reka Vibe-Eval，这也是一个很有挑战性的测试，由 269 个超高质量图像文本对组成，用于评估多模态语言模型的性能。在Reka Vibe-Eval 分数的排行榜上，GPT-4o再次荣登第一，相比谷歌新发布的Gemini Pro 1.5高出了将近三个百分点。而且GPT-4o克服了这个测试集上大模型常见的「逆缩放」问题，也就是在某些案例中表现不如小 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

爱可可-爱生活 · 【Awesome-Robotics-Diffusion：机器人学-20250219222623

6 小时前

黄建同学 · 戳图//@Zodzod_张浩:转发微博查看图片-20250219222852

6 小时前

中国人工智能学会 · 活动预告丨解码DeepSeek“破圈”之力，DeepSeek系列专题线上公开课开讲！

2 天前

机器之心 · 2024 IBM博士生奖学金出炉：韩迟、卓越、张逸骅、冯尚彬等AI研究者入选

2 天前

飞总聊IT · 微信当众扇亲儿子混元耳光，反手给DeepSeek喂十亿搜索流量接！！！百度棺材板被钉死。。。

2 天前

雪球 · 【婴童概念持续走弱茶花股份上演“准天地板”】午后婴童概念持续走-20240704133446

7 月前

XYSTRATEGY · 【兴证策略】今年景气对收益的影响依然显著

6 月前

江苏高院 · “三分钟看完一部影片！”把热播剧剪辑成短视频发到网上，成了被告……

6 月前

掌上春城 · 未拴绳宠物狗吓哭女孩，爷爷当场将狗摔死，官方通报

5 月前

术道有方分享 · 十四五规划即将结束，结合2025年经济工作会议，告诉我们普通百姓什么能做

2 月前