讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
今天看啥  ›  专栏  ›  大语言模型和具身智体及自动驾驶

EmbodiedGPT:通过具身的思维链进行视觉-语言预训练

大语言模型和具身智体及自动驾驶  · 公众号  ·  · 2024-09-18 00:06

文章预览

23年9月来自香港大学、上海AI实验室和华为诺亚实验室的论文“EmbodiedGPT: Vision-Language Pre-Training via Embodied Chain of Thought”。 具身人工智能是机器人技术领域的一个重要前沿,能够规划和执行机器人的动作序列,在物理环境中完成长期任务。这项工作引入 EmbodiedGPT,一种用于具身人工智能的端到端多模态基础模型,为具身智体提供多模态理解和执行能力。为了实现这一目标,做出了以下努力:(i)制作了一个大规模具身规划数据集,称为 EgoCOT。该数据集由从 Ego4D 数据集中精心挑选的视频以及相应的高质量语言指令组成。具体来说,用“思维链”模式生成一系列子目标,实现有效的具身规划。(ii)引入一种有效的 EmbodiedGPT 训练方法,通过前缀-调优将 7B 大语言模型 (LLM) 适配到 EgoCOT 数据集,从而生成高质量的规划。(iii) 引入一种从 LLM 生成的规划查 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览