主要观点总结
文章介绍了名为Genie的AI软件工程师,其在SWE-Bench评测中取得了显著成绩,能够像人类工程师一样解决现实生活中的软件问题。文章还详细描述了Genie的特点、训练方法和背后的团队Cosine。
关键观点总结
关键观点1: Genie的显著成绩和强大功能
Genie在SWE-Bench评测中取得榜首,解决问题的成绩遥遥领先第二名,能够像人类工程师一样解决现实生活中的软件问题。
关键观点2: Genie的训练方法和数据集
Genie团队收集了一个包含真实人类程序员开发活动的数据集,并使用该数据进行训练。Genie的推理过程包括规划、检索、代码编写和代码运行四个主要步骤。
关键观点3: Genie背后的团队Cosine
Cosine团队只有5人,但成员拥有丰富经验和背景。团队目标是想把人类推理这件事儿给搞明白。
关键观点4: Genie的成功与大模型支持的关系
Genie能力提升的关键在于OpenAI提供的大模型支持和数据质量。
关键观点5: 中国AIGC产业应用峰会回顾
文章提及了中国AIGC产业应用峰会,介绍了会议内容和行业热点话题。
文章预览
金磊 西风 发自 凹非寺 量子位 | 公众号 QbitAI 继Devin之后,又一个 AI软件工程师 被刷屏了—— 它叫 Genie ,号称目前 地表最强 ,已经可以像人一样思考和行动了! 那么这个“地表最强”,到底强到什么程度? 先来看下 评测分数 。 在权威榜单SWE-Bench中,Genie以解决了 30.07% 问题的成绩夺得榜首。 (SWE-Bench是一个用来评估大模型解决现实中软件问题的基准。) 而这个成绩可谓是遥遥领先第二名19.27%,解锁了 提升SOTA的最大增幅——57%! 至于Genie的 实际效果 ,用团队的话来说就是: 它可以做到像人类工程师一样解决现实生活中的软件问题。 首先,你可以用4种方式让Genie开始工作,分别是提示词、GitHub Issue、Linear Ticket或者API。 以解决GitHub Issue为例,先喂给Genie一个repo的链接,它就开始 自动解析问题 了: Genie会 自动迭代思考 如果想要解决这个问题
………………………………