文章预览
转自: 遥感与深度学习 论文介绍 题目:OMG-LLaVA: Bridging Image-level, Object-level, Pixel-level Reasoning and Understanding 会议:Conference on Neural Information Processing Systems 2024 论文:http://arxiv.org/abs/2406.19389 主页:https://lxtgh.github.io/project/omg_llava/ 年份:2024 单位:武汉大学等 NeurIPS 2024论文合集: NeurIPS024 创新点 多任务统一:OMG-LLaVA在一个模型中同时实现图像级、物体级和像素级任务处理,简化了任务执行的复杂性。 感知先验嵌入:通过嵌入物体查询到图像特征中,模型在像素级推理任务中表现更好,提升了分割和推理效果。 支持视觉提示输入:模型支持用户提供点、框、遮罩等提示,灵活生成对应的分割结果并实现区域描述。 简化架构设计:与其他复杂模型相比,OMG-LLaVA只使用一个视觉编码器和解码器,减少了冗余,保持高效性。 数据 本文使用了多种数据集来
………………………………