专栏名称: 机器之心
专业的人工智能媒体和产业服务平台
今天看啥  ›  专栏  ›  机器之心

田渊栋和Sergey Levine参与开发新型RL算法,能通过多轮训练让智能体学会协作推理

机器之心  · 公众号  · AI  · 2025-03-23 12:01
    

文章预览

机器之心报道 编辑:Panda 强化学习提升了 LLM 各方面的能力,而强化学习本身也在进化。 现实世界中,很多任务很复杂,需要执行一系列的决策。而要让智能体在这些任务上实现最佳性能,通常需要直接在多轮相关目标(比如成功率)上执行优化。不过,相比于模仿每一轮中最可能的动作,这种方法的难度要大得多。 在直接优化多轮目标方面,一类自然的方法是应用单轮 RLHF 算法,例如 RAFT、DPO 和 PPO ,不过这些方法不会在不同轮次间执行显式的 credit 分配。因此,由于复杂顺序决策任务的长期性,它们可能会出现高方差和较差的样本复杂性等问题。 另一种选择是应用价值函数学习方法,例如 TD 学习。然而,这需要在 LLM 表征的基础上训练一个新的特定于任务的价值头,这可能无法在有限的微调数据下很好地泛化。因此,目前尚不清楚哪种多轮 RL ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览