超越Devin！姚班带队，他们创大模型编程新世界纪录

量子位 · 公众号 · AI · 2024-06-03 10:50

文章预览

允中发自凹非寺量子位 | 公众号 QbitAI 超越Devin！ SWEBench排行榜上迎来了新玩家—— StarShip CodeGen Agent ，姚班带队初创公司OpenCSG出品，以23.67%的成绩获得全球第二名的成绩。同时创造了非GPT-4o基模的最高纪录（SOTA）。我们都知道，SWEBench评测高度贴近真实编程场景，难度极高，不仅要求模型能理解需求、协调多个函数/类甚至文件的变更，还要求模型与执行环境交互，处理超长上下文并执行远超传统代码生成任务的复杂逻辑推理。在这种高难度的真实测试中，行业中最先进的GPT4和Devin，也仅能解决1.74%和13.86%的问题。 OpenCSG的这一成绩，标志着国内公司在推动语言模型向更实用、智能和自主化方向发展迈出了领先的一步。大模型编程，到底有多难？ 2024年3月，首个AI软件工程师Devin的横空出世，引爆了整个技术界。虽然伴随着一系列争议，但Devi ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

新智元 · 1次搭建完胜1亿次编码，MCP硅谷疯传！Anthropic协议解锁智能体「万能手」

21 小时前

爱可可-爱生活 · 【NICAR 2025 年度会议上关于高级网页爬虫技术的工作坊内-20250309105439

昨天

爱可可-爱生活 · [LG]《Position: Don't use the CLT-20250309060939

2 天前

爱可可-爱生活 · 【[40星]MultiagentBench/MARBLE：评估L-20250308221815

2 天前

机器之心 · 自己训练模型才能掌握未来？一股脑押注应用层或许值得警惕

3 天前

爱可可-爱生活 · [CL]《NATURAL PLAN: Benchmarking -20240616054304

8 月前

刘润 · 08月06日（勤商日历卡片）：哎，哪有什么一劳永逸的好事

7 月前

五星党建 · 2024宜春（北京）生物医药大健康产业“双招双引”对接会成功举办

3 月前

广发金融工程研究 · 【广发金工】另类视角下的指数轮动策略研究

2 月前

中国经营报 · “锂矿双雄”暴利不再最高预亏百亿元

2 周前