讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
目录
今天看啥  ›  专栏  ›  大语言模型和具身智体及自动驾驶

Reflexion:具有口头强化学习的语言智体

大语言模型和具身智体及自动驾驶  · 公众号  ·  · 2024-10-04 00:06
    

文章预览

23年10月来自东北大学、MIT和普林斯顿大学的论文“Reflexion: Language Agents with Verbal Reinforcement Learning”。 大语言模型 (LLM) 已越来越多地用于作为目标驱动智体与外部环境(例如游戏、编译器、API)交互。然而,由于传统的强化学习方法需要大量的训练样本和昂贵的模型微调,这些语言智体仍然很难快速有效地从反复试验中学习。 Reflexion 这个框架,不是通过更新权重来强化语言智体,而是通过语言反馈。具体来说,Reflexion 智体会口头反映任务反馈信号,然后在情景记忆缓冲区中维护自己的反映文本,在后续试验中诱导更好的决策。Reflexion 足够灵活,可以合并各种类型(标量值或自由形式语言)和来源(外部或内部模拟)的反馈信号,并在不同任务(顺序决策、编码、语言推理)中获得比基线智体显着的改进。 Reflexion 开发有一个模块化公式,利用 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览