今天看啥  ›  专栏  ›  字节跳动技术团队

豆包MarsCode Agent 登顶 SWE-bench Lite 评测集

字节跳动技术团队  · 公众号  · 科技自媒体  · 2024-10-24 18:00

主要观点总结

本文主要介绍了豆包MarsCode Agent在软件工程领域的应用探索和尝试,包括多Agent协作框架、代码检索、代码编辑和实验结果分析等方面。豆包MarsCode Agent利用大语言模型能力,通过构建Agent框架和提供代码检索、编辑的交互接口,试图接管部分软件工程开发任务。在SWE-bench Lite数据集上的实验结果表明,豆包MarsCode Agent具有一定的解决软件工程问题的能力。

关键观点总结

关键观点1: 多Agent协作框架

豆包MarsCode Agent采用了多Agent协作的框架来适应不同的开发场景,包括Searcher、Manager、Reproducer、Programmer、Tester、Planner和Symbol Editor等角色。

关键观点2: 代码检索

豆包MarsCode Agent提供了多种代码检索工具,包括代码知识图谱、语言服务器协议等,以适应各种软件工程开发场景下的代码检索需求。

关键观点3: 代码编辑

豆包MarsCode Agent通过AutoDiff的代码编辑描述方式进行代码编辑,结合静态代码诊断来确保代码编辑的准确性。

关键观点4: 实验结果分析

豆包MarsCode Agent在SWE-bench Lite数据集上进行了性能评测,成功解决了118个实例,求解率达到39.33%。在错误定位和静态与动态求解的实例分布方面,豆包MarsCode Agent表现出较好的性能。

关键观点5: 未来展望

豆包MarsCode Agent团队致力于AI Agent方法在软件工程领域的落地和应用,未来将持续关注降低大语言模型调用成本、加强用户与Agent的协作和交互、支持Agent对用户工作区的动态调试、提升文件错误定位准确率和代码修改正确率等优化方向。


文章预览

大语言模型(LLM)能力正在迅速提升,对包括软件工程在内的诸多行业产生了深远影响。GPT-4o、Claude3.5 等 LLM 已经逐步展现出胜任复杂任务的能力,例如文本总结、智能客服、代码生成,甚至能够分析和解决数学问题。 在这一趋势下,AI Agent,即能够感知外部环境、操作工具并具有一定自主决策能力的智能体,受到了越来越多的研究关注。 豆包MarsCode 在软件工程领域进行了一系列关于 AI Agent 应用的探索和尝试,通过构建 Agent 框架并为其提供代码检索、调试和编辑的交互接口和工具,使得 Agent 有可能接管部分软件工程开发任务。 在 Agent 框架方面,豆包MarsCode 开发了多 Agent 协作框架,根据所要解决软工问题类型,分配静态或动态求解管道,从而灵活适配多样的软件工程问题; 在代码检索能力方面,豆包MarsCode 结合代码知识图谱和语言服务,为 Agen ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览