【香港科技大学】通过大型语言模型生成和演化高速公路驾驶的奖励函数

自动驾驶专栏 · 公众号 · · 2024-06-26 09:10

文章预览

点击下方卡片，关注“ 自动驾驶专栏 ”公众号自动驾驶干货，即可获取论文链接： https://arxiv.org/pdf/2406.10540 摘要本文介绍了通过大型语言模型生成和演化高速公路驾驶的奖励函数。强化学习（RL）通过最大化奖励函数来实现最优策略，其在推进自动驾驶技术方面发挥着至关重要的作用。然而，在很多实践过程中，制定这些奖励函数是一个复杂的人工过程。为了降低这种复杂性，本文引入了一种新的框架，其将大型语言模型（LLMs）与RL相结合，以改进自动驾驶中奖励函数的设计。该框架利用LLMs的编码能力来生成和演化高速公路场景的奖励函数。该框架首先指示LLMs基于驾驶环境和任务描述来创建初始的奖励函数代码。然后，通过涉及RL训练和LLMs反思的迭代循环来优化此代码，这得益于它们复查和改进输出的能力。本文还开发了一种特定的提示 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博