文章预览
24年6月来自伯克利分校的论文“LLARVA: Vision-Action Instruction Tuning Enhances Robot Learning”。 指令调优的大型多模态模型 (LMM) 已成功完成多项任务,包括图像字幕和视觉问答;然而,如何利用这些模型对机器人技术来说仍然是一个悬而未决的问题。之前用于机器人应用的 LMM, 已在语言和动作数据上进行了广泛的训练,但它们在不同环境中的泛化能力往往不尽如人意。为了解决这个问题,机器人视觉和动作的大语言模型( LLARVA) ,一种使用指令调优方法训练的模型,利用结构化提示,统一一系列机器人学习任务、场景和环境。此外,预测中间二维表示(称之为视觉轨迹)有助于进一步协调机器人学习的视觉和动作空间。从 Open X-Embodiment 数据集生成 8.5M 个图像-视觉轨迹对,以便对模型进行预训练,并在 RLBench 模拟器以及物理 Franka Emika Panda 7-DoF 机器人中
………………………………