文章预览
写在前面 & 笔者的个人理解 近年来,整合了语言、图像、音频等各种模态的多模态大语言模型取得了重大的突破,极大的加快了具身人工智能领域技术的发展。虽然相关研究成果取得了较为不错的进展,但是能够处理现实世界中多项任务的通用智能体还并未出现。这本质上是因为现有的多模态大型语言模型通过学习的方式从感知到动作的直接映射来执行相应动作,忽略了世界的动态特性以及运动与世界动态之间的关系。相比之下,人类拥有使他们能够基于3D内部视觉表征模拟未来状态并据此规划行动的视觉模型。因此,探索如何构建智能体的世界模型对于具身智能的进步至关重要。 自动驾驶作为具身人工智能的一项非常具有代表性的应用,在世界范围内得到了广泛的讨论和研究,但是目前的自动驾驶世界模型专注于传感器相关的任务,如点云、视
………………………………