【NeurIPS2024】强化学习梯度作为在线微调决策变换器的维生素

数据派THU · 公众号 · 大数据 · 2024-11-22 17:09

主要观点总结

本文介绍了决策变换器（Decision Transformers）作为离线强化学习的一种新颖范式，通过自回归的方式完成轨迹。文章主要围绕决策变换器的在线微调进行分析，发现常用的“回报至终”（Return-To-Go, RTG）会妨碍在线微调过程。通过简单地将TD3梯度添加到ODT的微调过程中，能够有效提高ODT的在线微调性能，特别是在使用低奖励离线数据预训练的情况下。此外，本文还介绍了数据派THU作为数据科学类公众号的相关内容。

关键观点总结

关键观点1: 决策变换器的在线微调问题

文章指出决策变换器在在线微调方面仍然面临挑战，常用的回报至终（RTG）会妨碍在线微调过程。

关键观点2: 解决决策变换器在线微调问题的方法

文章通过实验发现，通过简单地将TD3梯度添加到ODT的微调过程中，可以有效提高ODT的在线微调性能。

关键观点3: 数据派THU的介绍

文章还介绍了数据派THU作为数据科学类公众号的相关内容，包括分享前沿数据科学与大数据技术创新研究动态、传播数据科学知识等。

文章预览

来源：专知本文约1000字，建议阅读 5 分钟决策变换器（Decision Transformers）最近作为离线强化学习（RL）的一种新颖且引人注目的范式出现，通过自回归的方式完成轨迹。决策变换器（Decision Transformers）最近作为离线强化学习（RL）的一种新颖且引人注目的范式出现，通过自回归的方式完成轨迹。尽管已有改进以克服最初的缺点，决策变换器的在线微调却仍然鲜有深入探索。广泛采用的最先进的在线决策变换器（ODT）在使用低奖励离线数据进行预训练时仍然面临困难。本文理论上分析了决策变换器的在线微调，显示常用的远离期望回报的“回报至终”（Return-To-Go, RTG）会妨碍在线微调过程。然而，这一问题在标准强化学习算法中通过值函数和优势函数得到了很好的解决。根据我们的分析，在实验中，我们发现简单地将TD3梯度添加到ODT的微调过程中 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博