专栏名称: PaperWeekly

PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台，致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区：http://paperweek.ly | 微博：@PaperWeekly

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

北邮、美团联合提出反思微调AgentRefine：微调的也能让Agent模型学会反思？

PaperWeekly · 公众号 · 科研 · 2025-02-25 12:38

文章预览

©PaperWeekly 原创 · 作者 | 洪文滔、傅大源单位 | 北京邮电大学硕士生研究方向 | 自然语言处理概述背景基于大语言模型（LLMs）的智能体（agent）已经被证实其能像人类一样执行复杂任务。其能利用大型语言模型的强大能力来感知环境、做出决策并采取行动，已成为解决复杂现实世界问题的有效方案。动机我们首先观察到，现有的智能体训练语料库在训练内（Held-in）评估集上表现出了令人满意的结果，但在训练外（Held-out）评估集上却未能很好地泛化。这些智能体微调工作面临严重的格式错误，并且常常长时间陷入同样的错误中。它们无法从经验中学习，只能记住现有的观察-行动关系。基于这一洞察，我们提出了一种新颖的 AgentRefine 框架用于智能体微调策略。其核心思想是让模型通过轨迹中的观察学习纠正其错误。效果通过使 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博