文献 | 多模态大模型OMG-LLaVA, 桥接图像级、对象级、像素级理解和推理

GIS研发 · 公众号 · · 2024-10-10 20:47

文章预览

转自：遥感与深度学习论文介绍题目：OMG-LLaVA: Bridging Image-level, Object-level, Pixel-level Reasoning and Understanding 会议：Conference on Neural Information Processing Systems 2024 论文：http://arxiv.org/abs/2406.19389 主页：https://lxtgh.github.io/project/omg_llava/ 年份：2024 单位：武汉大学等 NeurIPS 2024论文合集： NeurIPS024 创新点多任务统一：OMG-LLaVA在一个模型中同时实现图像级、物体级和像素级任务处理，简化了任务执行的复杂性。感知先验嵌入：通过嵌入物体查询到图像特征中，模型在像素级推理任务中表现更好，提升了分割和推理效果。支持视觉提示输入：模型支持用户提供点、框、遮罩等提示，灵活生成对应的分割结果并实现区域描述。简化架构设计：与其他复杂模型相比，OMG-LLaVA只使用一个视觉编码器和解码器，减少了冗余，保持高效性。数据本文使用了多种数据集来 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博