文章预览
Devin 号称能成为完全自主的 软件工程师 ,像人类同事一样聊天,从学习新技术到部署应用无所不能。Answer.AI团队进行了 为期一个月 的测试, 表现并不如预期: 团队对Devin进行了系统性测试,涵盖创建新项目、研究任务、分析和修改现有项目等类别, 共20个任务,结果14个失败,3个成功,3个结果不明 。 Devin能完成的任务太小太明确,不如自己快速完成;对于可能节省时间的较大任务,Devin又很可能失败。与Devin相比, 开发者主导 的工作流程(如 Cursor )避免了大多数问题。 创建新项目 行星追踪器 :成功,通过手机操作完成。 从Notion迁移到Google Sheets :成功,Devin自行阅读API文档并指导设置凭证。 多应用部署到Railway :结果不明,任务本身不可能完成,但Devin仍尝试并产生了错误的设想。 生成合成数据并上传到Braintrust :失败,Devin产生复杂代码
………………………………