专栏名称: PaperWeekly

PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台，致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区：http://paperweek.ly | 微博：@PaperWeekly

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

港大、清华等提出IDA-VLM，用于电影场景理解的ID感知多模态大模型

PaperWeekly · 公众号 · 科研 · 2024-10-20 21:04

文章预览

©PaperWeekly 原创 · 作者 | 吉雅太单位 | 香港大学研究方向 | 多模态大模型介绍多模态大模型发展迅猛，已经展示了多种功能。但是他们普遍还停留在对单一视觉场景中类别、区域等的感知上，而 ID 级别的细粒度感知能力还没有得到探索，比如如何将多个视觉场景中的人物（或者具有个性特征的实例）ID 对应起来，这对于理解像电影一样有多个角色和复杂情节的视觉内容很重要。为了实现电影场景的理解，首先我们要激活多模态大模型对于多场景中 ID 信息的记忆和识别的能力。为此，本文提出了 ID 参考的视觉指令微调（visual instruction tuning with ID reference），并训练了 ID 感知的多模态大模型，IDA-VLM。论文标题： IDA-VLM: Towards Movie Understanding via ID-Aware Large Vision-Language Model 论文链接： https://arxiv.org/pdf/2407.07577 为了评测多模态大模型对 ID 的记忆 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博