今天看啥  ›  专栏  ›  深蓝AI

从 LEO 与 Beacon3D 看,三维场景理解的未来路径在哪?

深蓝AI  · 公众号  ·  · 2025-01-14 12:01
    

文章预览

在当今人工智能领域,三维场景理解能力是具身通用智能体(如LEO)的一项关键能力。随着机器人技术和计算机视觉的发展,研究者们越来越意识到,单纯依赖二维图像无法有效捕捉复杂的空间关系和环境细节。因此,如何让智能体在三维环境中更好地感知、推理和行动成为了一个重要课题。LEO正是基于以物体为中心的三维点云表征与语言模型,展示了其在三维场景理解及具身交互等任务中的出色表现。 深蓝学院邀请了北京大学的黄江勇博士, 给大家分享他们团队构建的 首个三维世界中的具身多任务多模态的通才智能体LEO ,并介绍三维场景理解的评估基准Beacon3D。 来源|深蓝学院-16子方向交流群 (文末扫码,参与黄江勇博士他们 的 最新研究工作分享 ) 1 — 三维场景理解研究现状 利用来自大语言模型 (LLM) 的知识,最近的机器学习模型在 自 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览