今天看啥  ›  专栏  ›  哔哩哔哩技术

IJCAI2024: 基于集成网络的离线到在线强化学习

哔哩哔哩技术  · 公众号  ·  · 2024-12-06 12:00
    

文章预览

01  前言 强化学习(Reinforcement Learning, RL)有两种基础的训练范式:在线强化学习(Online RL)和离线强化学习(Offline RL)。在线强化学习需要让智能体和环境进行交互,利用收集到的数据同步进行训练,但在环境中进行探索的开销很大;离线强化学习不需要和环境交互,直接利用已有的离线数据进行训练,但这种范式训练的智能体会受限于离线数据的质量和覆盖范围。 基于此,研究者提出了离线到在线强化学习(Offline-to-online RL)训练范式,先利用已有的离线数量训练得到离线策略,然后将其应用到在线环境进行少量步数的微调。这种范式相比于前两者,一方面通过收集少量的在线数据,能够突破离线数据的限制,更贴近实际场景;另一方面在线阶段的微调是以离线策略为起点,相比于从零开始的在线强化学习,只需要非常少量的交互就能快速收 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览