LLARVA：视觉-动作指令调优增强机器人学习能力

大语言模型和具身智体及自动驾驶 · 公众号 · · 2024-11-30 00:19

文章预览

24年6月来自伯克利分校的论文“LLARVA: Vision-Action Instruction Tuning Enhances Robot Learning”。指令调优的大型多模态模型 (LMM) 已成功完成多项任务，包括图像字幕和视觉问答；然而，如何利用这些模型对机器人技术来说仍然是一个悬而未决的问题。之前用于机器人应用的 LMM，已在语言和动作数据上进行了广泛的训练，但它们在不同环境中的泛化能力往往不尽如人意。为了解决这个问题，机器人视觉和动作的大语言模型（ LLARVA），一种使用指令调优方法训练的模型，利用结构化提示，统一一系列机器人学习任务、场景和环境。此外，预测中间二维表示（称之为视觉轨迹）有助于进一步协调机器人学习的视觉和动作空间。从 Open X-Embodiment 数据集生成 8.5M 个图像-视觉轨迹对，以便对模型进行预训练，并在 RLBench 模拟器以及物理 Franka Emika Panda 7-DoF 机器人中 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

宝马客 · 车主耗时半年，让十多年的老E92 335i魅力再续！开老宝马的你做过这些升级吗？

20 小时前

飞灵汽车 · 某国资持股车企已停产多月！员工吐槽：月薪就900块还拖欠！｜飞灵

3 天前

有车以后 · 极氪无图城市NZP体验，表现更胜老司机！

3 天前

国芯网 · 裁员！赔偿N+6!

4 天前

汽车之家 · 途锐设计师领衔！大五座中大型SUV，搭载高阶智驾！别只看理想L6！

5 天前

酷玩实验室 · 自建房，可能撑起下一个地产周期

4 月前

AI新榜 · 诈骗克星“AI奶奶”来袭，骗子破大防，用AI反诈实在太爽了

4 周前

盖世汽车新能源 · 阿斯顿·马丁明年将生产首款插电式混合动力汽车，较原计划晚四年

1 周前