讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
今天看啥  ›  专栏  ›  大语言模型和具身智体及自动驾驶

Magma:多模态 AI 智体的基础模型

大语言模型和具身智体及自动驾驶  · 公众号  ·  · 2025-03-01 00:02
    

文章预览

25年2月来自微软研究、马里兰大学、Wisconsin大学、韩国 KAIST 和西雅图华盛顿大学的论文“Magma: A Foundation Model for Multimodal AI Agents”。 Magma 是一个基础模型,可在数字和物理世界中服务于多模态 AI 智体任务。Magma 是视觉-语言 (VL) 模型的重要扩展,因为它不仅保留后者的 VL 理解能力(语言智能),还配备在视觉空间世界中规划和行动的能力(时空智能)以及完成从 UI 导航到机器人操作的智体任务。为了赋予智体能力,Magma 在大量异构数据集上进行预训练,这些数据集涵盖图像、视频和机器人数据,其中图像中动作视觉目标(例如,GUI 中的可点击按钮)用标记集 (SoM) 标注以进行动作落地,视频中的目标运动(例如,人手或机械臂的痕迹)由标记痕迹 (ToM) 标注以进行动作规划。大量实验表明,SoM 和 ToM 实现很好的协同作用,并促进 Magma 模型获取时空 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览