文章预览
24年8月来自东北大学的论文“Enhancing the Code Debugging Ability of LLMs via Communicative Agent Based Data Refinement”。 调试是软件开发中的重要方面,但大语言模型 (LLM) 的调试能力仍未得到充分开发。DEBUGEVAL 是一个旨在评估 LLM 调试能力的综合基准测试。DEBUGEVAL 从现有的高质量数据集中收集数据,并设计四个不同的任务来评估调试效果,包括 BUG 定位、BUG 识别、代码审查和代码修复。此外,为了增强 LLM 的代码调试能力,提出一种基于通信智体的数据细化框架 ( MASTER,coMmunicative Agent baSed daTa rEfinement fRamework ),该框架生成细化的代码调试数据,供有监督的微调。 具体而言,MASTER 使用 Code Quizzer 根据 DEBUGEVAL 定义的任务生成细化数据。然后, Code Learner 充当一个批评者Critic并保留其无法解决的生成问题。最后, Code Teacher 提供基于思维链(CoT)的详细解决方案来
………………………………