专栏名称: 量子位
վ'ᴗ' ի 追踪AI行业和技术动态,这里更快一步!关注我们,回复“今天”,更多大新闻等你来发现
今天看啥  ›  专栏  ›  量子位

港大字节提出多模态大模型新范式,模拟人类先感知后认知,精确定位图中物体

量子位  · 公众号  · AI  · 2024-05-27 12:00
    

文章预览

允中 发自 凹非寺 量子位 | 公众号 QbitAI 当前, 多模态大模型   (MLLM) 在多项视觉任务上展现出了强大的认知理解能力。 然而大部分多模态大模型局限于 单向的图像理解 ,难以将理解的内容映射回图像上。 比如,模型能轻易说出图中有哪些物体,但无法将物体在图中准确标识出来。 定位能力的缺失 直接限制了多模态大模型在图像编辑,自动驾驶,机器人控制等下游领域的应用。 针对这一问题,港大和字节跳动商业化团队的研究人员提出了一种新范式 Groma —— 通过 区域性图像编码 来提升多模态大模型的感知定位能力。 在融入定位后,Groma可以将文本内容和图像区域直接关联起来,从而显著提升对话的交互性和指向性。 核心思路 如何赋予多模态大模型定位物体的能力,乃至于将文字内容和图像区域关联起来,做到“言之有物”,是当前一大 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览