讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
今天看啥  ›  专栏  ›  大语言模型和具身智体及自动驾驶

EUREKA:通过编码大语言模型实现人类级别的奖励设计

大语言模型和具身智体及自动驾驶  · 公众号  ·  · 2024-11-17 00:21
    

文章预览

24年4月来自Nvidia、UPenn、Caltech 和 UT Austin 的论文“EUREKA: Human-Level Reward Design Via Coding Large Language Models”。 大语言模型 (LLM) 已成为序贯决策任务的高级语义规划器。然而,如何利用它们来学习复杂的低级操作任务(例如灵巧地旋转笔)仍然是一个悬而未决的问题。 EUREKA 则是一种由 LLM 驱动的人类级奖励设计算法。EUREKA 利用最先进 LLM(例如 GPT-4)出色的零样本生成、代码编写和上下文改进功能对奖励代码进行进化优化。然后可以使用得到的奖励通过 强化学习(RL) 获得复杂技能。在没有任何特定任务的提示或预定义奖励模板的情况下,EUREKA 生成的奖励函数优于专家人为设计的奖励。在包含 10 种不同机器人形态的 29 个开源 RL 环境的多样化套件中,EUREKA 在 83% 的任务上的表现优于人类专家,平均标准化改进为 52%。EUREKA 的通用性还使一种无梯度上 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览