NaVILA：视觉-语言-动作模型用于带腿机器人的导航

大语言模型和具身智体及自动驾驶 · 公众号 · · 2024-12-19 00:08

文章预览

24年12月来自UCSD、USC和Nvidia的论文“NaVILA: Legged Robot Vision-language- Action Model For Navigation”。本文提出用带腿机器人（比如人形机器人）解决视觉-和-语言的导航问题，这不仅为人类提供了灵活的指挥方式，还允许机器人在更具挑战性和混乱的场景中导航。然而，将人类语言指令一直翻译成低级腿部关节动作并非易事。 NaVILA ，是一个两级框架，将视觉-语言-动作模型 (VLA) 与运动技能结合起来。NaVILA 不是直接从 VLA 预测低级动作，而是首先以语言的形式生成具有空间信息的中级动作（例如，“向前移动 75 厘米”），作为视觉运动 RL 策略的输入，以便执行。NaVILA 大大改进了现有基准测试中的先前方法。新开发的 Isaac Lab 基准测试也展示了同样的优势，具有更逼真的场景、低级控制和真实世界的机器人实验。网页 https://navila-bot.github.io/ 执行视觉-和-语言 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博