讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
今天看啥  ›  专栏  ›  大语言模型和具身智体及自动驾驶

NaVILA:视觉-语言-动作模型用于带腿机器人的导航

大语言模型和具身智体及自动驾驶  · 公众号  ·  · 2024-12-19 00:08
    

文章预览

24年12月来自UCSD、USC和Nvidia的论文“NaVILA: Legged Robot Vision-language- Action Model For Navigation”。 本文提出用带腿机器人(比如人形机器人)解决视觉-和-语言的导航问题,这不仅为人类提供了灵活的指挥方式,还允许机器人在更具挑战性和混乱的场景中导航。然而,将人类语言指令一直翻译成低级腿部关节动作并非易事。 NaVILA ,是一个两级框架,将视觉-语言-动作模型 (VLA) 与运动技能结合起来。NaVILA 不是直接从 VLA 预测低级动作,而是首先以语言的形式生成具有空间信息的中级动作(例如,“向前移动 75 厘米”),作为视觉运动 RL 策略的输入,以便执行。NaVILA 大大改进了现有基准测试中的先前方法。新开发的 Isaac Lab 基准测试也展示了同样的优势,具有更逼真的场景、低级控制和真实世界的机器人实验。 网页 https://navila-bot.github.io/ 执行视觉-和-语言 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览