讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
目录
相关文章推荐
今天看啥  ›  专栏  ›  大语言模型和具身智体及自动驾驶

AutoRT:机器人智体大规模编排的具身基础模型

大语言模型和具身智体及自动驾驶  · 公众号  ·  · 2024-10-15 03:11
    

文章预览

24年1月来自谷歌DeepMind的论文“AutoRT: Embodied Foundation Models for Large Scale Orchestration of Robotic Agents”。 融合语言、视觉和最新动作的基础模型彻底改变了利用互联网规模数据推理有用任务的能力。然而,训练具身基础模型的关键挑战之一,是缺乏扎根于物理世界的数据。AutoRT 是一个利用现有基础模型在完全未见过的场景中以最少的人工监督扩大操作机器人部署的系统。AutoRT 利用视觉-语言模型 (VLM) 进行场景理解和落地,并进一步使用大语言模型 (LLM) 为一队机器人提出多样化和新指令。通过利用基础模型的知识来指导数据收集,AutoRT 能够有效地推理自主性的权衡和安全性,同时显着扩大机器人学习的数据收集。AutoRT 向多栋建筑中的 20 多个机器人提出指令,并通过遥控操作和自主机器人策略收集77,000 个真实机器人episodes。通过实验表明,AutoRT 收集的此 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览