专栏名称: AIGC新智界
区块链/数字货币/比特币中文资讯,创立于2011年,200多位专栏作入驻平台,国内最大区块链资讯原创基地(公众号【原创】认证),我们为以下合作伙伴供稿:火币、OKCoin、BTC.com、BTCC、币看、BTC123、比特时代、挖币网
今天看啥  ›  专栏  ›  AIGC新智界

最强AI程序员砸饭碗:84秒跑通代码,像人一样思考!团队仅5人

AIGC新智界  · 公众号  · 比特币  · 2024-08-19 17:24

主要观点总结

文章介绍了名为Genie的AI软件工程师,其在SWE-Bench评测中取得了显著成绩,能够像人类工程师一样解决现实生活中的软件问题。文章还详细描述了Genie的特点、训练方法和背后的团队Cosine。

关键观点总结

关键观点1: Genie的显著成绩和强大功能

Genie在SWE-Bench评测中取得榜首,解决问题的成绩遥遥领先第二名,能够像人类工程师一样解决现实生活中的软件问题。

关键观点2: Genie的训练方法和数据集

Genie团队收集了一个包含真实人类程序员开发活动的数据集,并使用该数据进行训练。Genie的推理过程包括规划、检索、代码编写和代码运行四个主要步骤。

关键观点3: Genie背后的团队Cosine

Cosine团队只有5人,但成员拥有丰富经验和背景。团队目标是想把人类推理这件事儿给搞明白。

关键观点4: Genie的成功与大模型支持的关系

Genie能力提升的关键在于OpenAI提供的大模型支持和数据质量。

关键观点5: 中国AIGC产业应用峰会回顾

文章提及了中国AIGC产业应用峰会,介绍了会议内容和行业热点话题。


文章预览

金磊 西风 发自 凹非寺 量子位 | 公众号 QbitAI 继Devin之后,又一个 AI软件工程师 被刷屏了—— 它叫 Genie ,号称目前 地表最强 ,已经可以像人一样思考和行动了! 那么这个“地表最强”,到底强到什么程度? 先来看下 评测分数 。 在权威榜单SWE-Bench中,Genie以解决了 30.07% 问题的成绩夺得榜首。 (SWE-Bench是一个用来评估大模型解决现实中软件问题的基准。) 而这个成绩可谓是遥遥领先第二名19.27%,解锁了 提升SOTA的最大增幅——57%! 至于Genie的 实际效果 ,用团队的话来说就是: 它可以做到像人类工程师一样解决现实生活中的软件问题。 首先,你可以用4种方式让Genie开始工作,分别是提示词、GitHub Issue、Linear Ticket或者API。 以解决GitHub Issue为例,先喂给Genie一个repo的链接,它就开始 自动解析问题 了: Genie会 自动迭代思考 如果想要解决这个问题 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览