专栏名称: PaperWeekly
PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台,致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区:http://paperweek.ly | 微博:@PaperWeekly
今天看啥  ›  专栏  ›  PaperWeekly

港大、清华等提出IDA-VLM,用于电影场景理解的ID感知多模态大模型

PaperWeekly  · 公众号  · 科研  · 2024-10-20 21:04
    

文章预览

©PaperWeekly 原创 · 作者 |  吉雅太 单位 |  香港大学 研究方向 |  多模态大模型 介绍 多模态大模型发展迅猛,已经展示了多种功能。但是他们普遍还停留在对单一视觉场景中类别、区域等的感知上,而 ID 级别的细粒度感知能力还没有得到探索,比如如何将多个视觉场景中的人物(或者具有个性特征的实例)ID 对应起来,这对于理解像电影一样有多个角色和复杂情节的视觉内容很重要。 为了实现电影场景的理解,首先我们要激活多模态大模型对于多场景中 ID 信息的记忆和识别的能力。为此,本文提出了 ID 参考的视觉指令微调(visual instruction tuning with ID reference),并训练了 ID 感知的多模态大模型,IDA-VLM。 论文标题: IDA-VLM: Towards Movie Understanding via ID-Aware Large Vision-Language Model 论文链接: https://arxiv.org/pdf/2407.07577 为了评测多模态大模型对 ID 的记忆 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览