专栏名称: GIS研发
GIS研发团队,聚焦科技创新、软件研发及优秀人才培养,攻克视频GIS、GeoAI、GIS开发及应用领域的关键技术问题。
今天看啥  ›  专栏  ›  GIS研发

文献 | 多模态大模型OMG-LLaVA, 桥接图像级、对象级、像素级理解和推理

GIS研发  · 公众号  ·  · 2024-10-10 20:47

文章预览

转自: 遥感与深度学习 论文介绍 题目:OMG-LLaVA: Bridging Image-level, Object-level, Pixel-level Reasoning and Understanding 会议:Conference on Neural Information Processing Systems 2024 论文:http://arxiv.org/abs/2406.19389 主页:https://lxtgh.github.io/project/omg_llava/ 年份:2024 单位:武汉大学等 NeurIPS 2024论文合集: NeurIPS024 创新点 多任务统一:OMG-LLaVA在一个模型中同时实现图像级、物体级和像素级任务处理,简化了任务执行的复杂性。 感知先验嵌入:通过嵌入物体查询到图像特征中,模型在像素级推理任务中表现更好,提升了分割和推理效果。 支持视觉提示输入:模型支持用户提供点、框、遮罩等提示,灵活生成对应的分割结果并实现区域描述。 简化架构设计:与其他复杂模型相比,OMG-LLaVA只使用一个视觉编码器和解码器,减少了冗余,保持高效性。 数据 本文使用了多种数据集来 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览