专栏名称: 量子位
վ'ᴗ' ի 追踪AI行业和技术动态,这里更快一步!关注我们,回复“今天”,更多大新闻等你来发现
今天看啥  ›  专栏  ›  量子位

超越Devin!姚班带队,他们创大模型编程新世界纪录

量子位  · 公众号  · AI  · 2024-06-03 10:50
    

文章预览

允中 发自 凹非寺 量子位 | 公众号 QbitAI 超越Devin! SWEBench排行榜上迎来了新玩家—— StarShip CodeGen Agent ,姚班带队初创公司OpenCSG出品,以23.67%的成绩获得全球第二名的成绩。 同时创造了 非GPT-4o基模的最高纪录 (SOTA) 。 我们都知道,SWEBench评测高度贴近真实编程场景,难度极高,不仅要求模型能理解需求、协调多个函数/类甚至文件的变更,还要求模型与执行环境交互,处理超长上下文并执行远超传统代码生成任务的复杂逻辑推理。 在这种高难度的真实测试中,行业中最先进的GPT4和Devin,也仅能解决1.74%和13.86%的问题。 OpenCSG的这一成绩,标志着国内公司在推动语言模型向更实用、智能和自主化方向发展迈出了领先的一步。 大模型编程,到底有多难? 2024年3月,首个AI软件工程师Devin的横空出世,引爆了整个技术界。虽然伴随着一系列争议,但Devi ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览