MG-LMM ｜指令引导的多粒度分割和字幕与大型多模态模型

arXiv每日学术速递 · 公众号 · · 2024-09-29 14:03

文章预览

摘要大型多模态模型 (LMMs) 通过扩展大型语言模型取得了重大进展。在此进展的基础上，LMMs 的最新发展证明了通过集成分割模型生成密集像素级分割的能力。尽管存在创新，但现有工作的文本响应和分割掩码仍然停留在实例级别，即使提供详细的文本提示，也显示出有限的执行细粒度理解和分割的能力。为了克服这一局限性，我们引入了一种多粒度大型多模态模型 (MGLMM)，该模型能够根据用户指令，从全景 SegCap 到细粒度 SegCap，无缝调整分割和字幕 (SegCap) 的粒度。我们将这种新的任务命名为多粒度分割和字幕 (MGSC)。观察到在 MGSC 任务上缺乏模型训练和评估的基准，我们使用我们定制的自动化标注管道，建立了一个在多粒度中具有对齐掩码和字幕的基准。该基准包含 10K 张图像和超过 30K 张图像-问题对。我们将发布我们的数据集以及我们 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

宁聚 · 停更9天，雷军突然发文！瞬间爆了

19 小时前

宁聚 · 停更9天，雷军突然发文！瞬间爆了

19 小时前

出彩写作 · 写材料带徒弟小技巧3：拿办件练手

昨天

海西晨报 · 雷军时隔9天再发文！

昨天

海西晨报 · 雷军时隔9天再发文！

昨天

智驾最前沿 · 城市巡航功能预期功能安全测试评价方法

8 月前

丁香医生 · 宝宝营养别乱补，3 岁内的补剂一次说清！

3 月前

甘肃省广播电视局 · 十四届甘肃省委第六轮巡视对象公布

2 周前

陈忻儿童心理 · 《从心理解孩子》课程简单介绍

2 天前

MG-LMM ｜ 指令引导的多粒度分割和字幕与大型多模态模型

文章预览

MG-LMM ｜指令引导的多粒度分割和字幕与大型多模态模型