讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
今天看啥  ›  专栏  ›  大语言模型和具身智体及自动驾驶

具有 LLM 驱动数据合成和自动驾驶策略调整的鲁棒 RL

大语言模型和具身智体及自动驾驶  · 公众号  ·  · 2024-10-26 02:24
    

文章预览

24年10月来自利物浦大学、华威大学和东南大学的论文“Robust RL with LLM-Driven Data Synthesis and Policy Adaptation for Autonomous Driving”。 大语言模型 (LLM) 与自动驾驶系统的集成展示了强大的常识和推理能力,有效地解决了纯数据驱动方法的缺陷。当前基于 LLM 的智体需要较长的推理时间,并且在与实时自动驾驶环境交互时面临挑战。一个关键的悬而未决的问题是,是否可以有效地利用来自 LLM 的知识来训练高效且强大的强化学习 (RL) 智体。 RAPID ,一种鲁棒自适应策略注入和蒸馏框架,它使用基于 LLM 的驾驶智体和在线自适应合成的数据来训练专门的混合策略 RL 智体。 RAPID 具有三种关键设计:1) 利用从 LLM 智体收集的离线数据将专家知识蒸馏到 RL 策略中,以实现更快的实时推理;2) 在 RL 中引入强大的蒸馏,以继承基于 LLM 教师的性能和鲁棒性;3) 采用混合策略 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览