注册
登录
专栏名称:
量子位
վ'ᴗ' ի 追踪AI行业和技术动态,这里更快一步!关注我们,回复“今天”,更多大新闻等你来发现
我也要提交微信公众号
今天看啥
微信公众号rss订阅, 微信rss, 稳定的RSS源
微信公众号RSS订阅方法
B站投稿RSS订阅方法
雪球动态RSS订阅方法
微博RSS订阅方法
微博搜索关键词订阅方法
豆瓣日记 RSS订阅方法
目录
相关文章推荐
爱可可-爱生活
·
[CL]《LatteReview: A ...
·
13 小时前
宝玉xp
·
//@落魄的三叔:你们再细看一下域名:wec ...
·
17 小时前
黄建同学
·
Codeium 团队推出了 ...
·
2 天前
宝玉xp
·
回复@ET维维:Gemini ...
·
2 天前
爱可可-爱生活
·
【[503星]OpenScholar:这是一 ...
·
3 天前
今天看啥
›
专栏
›
量子位
港大字节提出多模态大模型新范式,模拟人类先感知后认知,精确定位图中物体
量子位
·
公众号
·
AI
· 2024-05-27 12:00
文章预览
允中 发自 凹非寺 量子位 | 公众号 QbitAI 当前, 多模态大模型 (MLLM) 在多项视觉任务上展现出了强大的认知理解能力。 然而大部分多模态大模型局限于 单向的图像理解 ,难以将理解的内容映射回图像上。 比如,模型能轻易说出图中有哪些物体,但无法将物体在图中准确标识出来。 定位能力的缺失 直接限制了多模态大模型在图像编辑,自动驾驶,机器人控制等下游领域的应用。 针对这一问题,港大和字节跳动商业化团队的研究人员提出了一种新范式 Groma —— 通过 区域性图像编码 来提升多模态大模型的感知定位能力。 在融入定位后,Groma可以将文本内容和图像区域直接关联起来,从而显著提升对话的交互性和指向性。 核心思路 如何赋予多模态大模型定位物体的能力,乃至于将文字内容和图像区域关联起来,做到“言之有物”,是当前一大 ………………………………
原文地址:
访问原文地址
快照地址:
访问文章快照
总结与预览地址:
访问总结与预览
分享到微博
推荐文章
爱可可-爱生活
·
[CL]《LatteReview: A Multi-Agent -20250120060723
13 小时前
宝玉xp
·
//@落魄的三叔:你们再细看一下域名:wechat.steamp-20250120023232
17 小时前
黄建同学
·
Codeium 团队推出了 Windsurf Wave 2核心亮-20250118164351
2 天前
宝玉xp
·
回复@ET维维:Gemini 语音转文本还不支持时间轴//@ET-20250118101157
2 天前
爱可可-爱生活
·
【[503星]OpenScholar:这是一个助力科研人员的智能-20250117121401
3 天前
New Economist
·
通知:新经济学家智库理事单位、个人理事、智库会员开放申请
6 月前
前端早读课
·
【第3331期】爱彼迎以用户体验驱动的 Web 性能度量
5 月前