连接人工智能技术人才和产业人才的交流平台
今天看啥  ›  专栏  ›  机器学习研究组订阅

GPT-4o成为全领域SOTA!基准测试远超Gemini和Claude,多模态功能远超GPT-4

机器学习研究组订阅  · 公众号  · AI  · 2024-05-19 18:41
    

文章预览

OpenAI在发布会上官宣GPT-4o之后,各路大神也开始了对这个新模型的测评,结果就是,GPT-4o在多项基准测试上都展现了SOTA的实力。 别家发布会都在画饼,OpanAI却总能开出一种「欲扬先抑」的效果,惊喜全在发布会之后。  基准测试结果 首先,在LMSys聊天机器人竞技场上的ELO分数排行上,GPT-4o套了一个GPT2聊天机器人的马甲,以一骑绝尘的态势名列第一,评分为1310,和第二名GPT-4-turbo的1253分相比,呈现断档式的提升。 再来看多模态领域的基准Reka Vibe-Eval,这也是一个很有挑战性的测试,由 269 个超高质量图像文本对组成,用于评估多模态语言模型的性能。 在Reka Vibe-Eval 分数的排行榜上,GPT-4o再次荣登第一,相比谷歌新发布的Gemini Pro 1.5高出了将近三个百分点。 而且GPT-4o克服了这个测试集上大模型常见的「逆缩放」问题,也就是在某些案例中表现不如小 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览