今天看啥  ›  专栏  ›  arXiv每日学术速递

MG-LMM | 指令引导的多粒度分割和字幕与大型多模态模型

arXiv每日学术速递  · 公众号  ·  · 2024-09-29 14:03

文章预览

摘要 大型多模态模型 (LMMs) 通过扩展大型语言模型取得了重大进展。 在此进展的基础上,LMMs 的最新发展证明了通过集成分割模型生成密集像素级分割的能力。 尽管存在创新,但现有工作的文本响应和分割掩码仍然停留在实例级别,即使提供详细的文本提示,也显示出有限的执行细粒度理解和分割的能力。 为了克服这一局限性,我们引入了一种多粒度大型多模态模型 (MGLMM),该模型能够根据用户指令,从全景 SegCap 到细粒度 SegCap,无缝调整分割和字幕 (SegCap) 的粒度。 我们将这种新的任务命名为多粒度分割和字幕 (MGSC)。 观察到在 MGSC 任务上缺乏模型训练和评估的基准,我们使用我们定制的自动化标注管道,建立了一个在多粒度中具有对齐掩码和字幕的基准。 该基准包含 10K 张图像和超过 30K 张图像-问题对。 我们将发布我们的数据集以及我们 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览