讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
今天看啥  ›  专栏  ›  大语言模型和具身智体及自动驾驶

RT-H:使用语言的动作分层

大语言模型和具身智体及自动驾驶  · 公众号  ·  · 2024-09-15 00:15
    

文章预览

24年6月来自谷歌和斯坦福的论文“RT-H: Action Hierarchies Using Language”。 语言提供了一种将复杂概念分解为可消化块的方法。机器人模仿学习方面的最新研究,提出了学习语言为条件的策略,可以根据视觉观察和语言指定的高级任务预测动作。这些方法利用自然语言的结构,在多任务数据集中,在语义上相似的任务(例如“挑选可乐罐”和“挑选苹果”)之间共享数据。然而,随着任务在语义上变得更加多样化(例如“挑选可乐罐”和“倒杯子”),在任务之间共享数据变得更加困难,因此学习将高级任务映射到动作需要更多的演示数据。 为了弥合任务和动作之间的这种鸿沟,有这样的一个想法: 教机器人这种动作的语言,用更细粒度的短语(如“向前移动手臂”或“闭合夹子”)描述低层动作 。预测这些 语言运动(language motion) 作为高级任务和 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览