今天看啥  ›  专栏  ›  自动驾驶Daily

迈向3D视觉的基础模型:距离人类3D视觉机制还有多远?

自动驾驶Daily  · 公众号  ·  · 2024-10-23 07:30
    

文章预览

点击下方 卡片 ,关注“ 自动驾驶Daily ”公众号 戳我->  领取近15个自动驾驶方向路线 >> 点击进入→ 自动驾驶Daily技术交流群 微信扫描以下二维码,加入【自动驾驶之心】知识星球, 国内最专业的技术和求职交流社区, 和3500人一起卷赢 写在前面 构建3D视觉的基础模型是一个尚未解决的复杂挑战。为了实现这一目标,了解当前模型的3D推理能力以及确定这些模型与人类之间的差距非常重要。因此,我们构建了一个新的3D视觉理解基准,该基准涵盖了视觉问答(VQA)格式的基本3D视觉任务。我们评估了最先进的视觉语言模型(VLMs)、专业模型和人类受试者。我们的结果表明,VLMs通常表现不佳,而专业模型虽然准确,但不稳健,在几何扰动下会失败。相比之下,人类视觉仍然是最可靠的3D视觉系统。我们进一步证明,与经典的计算机视觉方法相比,神 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览