专栏名称: 量子位
վ'ᴗ' ի 追踪AI行业和技术动态,这里更快一步!关注我们,回复“今天”,更多大新闻等你来发现
今天看啥  ›  专栏  ›  量子位

解决真实GitHub Issue能力登顶,字节豆包MarsCode团队分享背后工程实践,踩过的坑也分享了

量子位  · 公众号  · AI  · 2024-11-04 14:20

主要观点总结

豆包MarsCode团队提出了一种AI Agent来解决软件工程的实际问题,该团队解决了基于SWE-Bench数据集上的许多实际问题,展示了他们的技术能力和潜在应用前景。该团队使用多Agent协作框架,代码检索工具(包括代码知识图谱和语言服务协议),以及代码编辑和静态代码诊断技术来解决软件工程问题。

关键观点总结

关键观点1: 多Agent协作框架

团队采用多Agent协作框架来解决动态调试修复和静态修复问题,包括Searcher、Manager、Reproducer、Programmer、Tester、Planner和SymbolEditor等角色。

关键观点2: 代码检索工具

团队提供了豆包MarsCode Agent多种代码检索工具,包括代码知识图谱和语言服务协议等,以适应各种软件工程开发场景下的代码检索需求。

关键观点3: 代码编辑描述和静态代码诊断

团队通过AutoDiff的代码编辑描述和静态代码诊断技术来解决代码编辑中的问题,并通过语言服务器协议进行静态代码诊断。

关键观点4: 实验结果分析

豆包MarsCode Agent在SWE-bench Lite数据集上的评测实验中,成功求解了118个实例,求解率达到39.33%。在错误定位和求解率方面,豆包MarsCode Agent表现出色。

关键观点5: 未来展望

团队未来的优化方向包括降低大语言模型调用成本,加强用户与Agent的协作和交互,支持Agent对用户工作区的动态调试,以及进一步提升文件错误定位准确率和代码修改正确率。


文章预览

豆包MarsCode团队 投稿 量子位 | 公众号 QbitAI 解决真实GitHub Issue的基准测试,字节家的 豆包MarsCode Agent 悄悄登顶了。 SWE-Bench ,一个由普林斯顿大学提出的极具挑战性的Benchmark,近期受到工业界、学术界和创业团队的广泛关注。 在其子集SWE-Bench Lite排行榜上,豆包MarsCode Agent近期冲上第一。 虽然这是面向所有大模型解决方案的评测,但现在排名靠前的部分已基本被 AI Agent 占领。 AI Agent即能够感知外部环境、操作工具并具有一定自主决策能力的智能体,受到了越来越多的研究关注。 现在,豆包MarsCode Agent团队 分享了在软件工程领域进行了一系列关于AI Agent应用的探索和尝试 : 通过构建Agent框架并为其提供代码检索、调试和编辑的交互接口和工具,使得Agent有可能接管部分软件工程开发任务。 在Agent框架方面, 豆包MarsCode开发了多Agent协作框架,根据所 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览