EmbodiedGPT：通过具身的思维链进行视觉-语言预训练

大语言模型和具身智体及自动驾驶 · 公众号 · · 2024-09-18 00:06

文章预览

23年9月来自香港大学、上海AI实验室和华为诺亚实验室的论文“EmbodiedGPT: Vision-Language Pre-Training via Embodied Chain of Thought”。具身人工智能是机器人技术领域的一个重要前沿，能够规划和执行机器人的动作序列，在物理环境中完成长期任务。这项工作引入 EmbodiedGPT，一种用于具身人工智能的端到端多模态基础模型，为具身智体提供多模态理解和执行能力。为了实现这一目标，做出了以下努力：（i）制作了一个大规模具身规划数据集，称为 EgoCOT。该数据集由从 Ego4D 数据集中精心挑选的视频以及相应的高质量语言指令组成。具体来说，用“思维链”模式生成一系列子目标，实现有效的具身规划。（ii）引入一种有效的 EmbodiedGPT 训练方法，通过前缀-调优将 7B 大语言模型 (LLM) 适配到 EgoCOT 数据集，从而生成高质量的规划。(iii) 引入一种从 LLM 生成的规划查 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博