Reflexion：具有口头强化学习的语言智体

大语言模型和具身智体及自动驾驶 · 公众号 · · 2024-10-04 00:06

文章预览

23年10月来自东北大学、MIT和普林斯顿大学的论文“Reflexion: Language Agents with Verbal Reinforcement Learning”。大语言模型 (LLM) 已越来越多地用于作为目标驱动智体与外部环境（例如游戏、编译器、API）交互。然而，由于传统的强化学习方法需要大量的训练样本和昂贵的模型微调，这些语言智体仍然很难快速有效地从反复试验中学习。 Reflexion 这个框架，不是通过更新权重来强化语言智体，而是通过语言反馈。具体来说，Reflexion 智体会口头反映任务反馈信号，然后在情景记忆缓冲区中维护自己的反映文本，在后续试验中诱导更好的决策。Reflexion 足够灵活，可以合并各种类型（标量值或自由形式语言）和来源（外部或内部模拟）的反馈信号，并在不同任务（顺序决策、编码、语言推理）中获得比基线智体显着的改进。 Reflexion 开发有一个模块化公式，利用 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

InfoQ 架构头条 · DeepSeek爆降AI成本，但算力资源可能“越省越费”？

2 天前

太星小升初 · 82 | 影响招录！燕山地区初中入学工作安排明确，2025小升初提前看

6 月前

i美妆头条 · 线下零售的下一个“黄金时代”来了！

6 月前

中交路建 · 廉洁家风·第四期 | 诵读经典家风故事

6 月前

财政部 · 财政部等部门要求进一步做好通过电子渠道销售储蓄国债（电子式）有关工作

1 月前