武大南洋理工昆仑提出 OMG-LLaVA：一个统一的框架，实现图像级、目标级和像素级的推理！

集智书童 · 公众号 · · 2024-07-07 09:00

文章预览

当前普遍的分割方法在像素级的图像和视频理解方面表现出强大的能力。然而，它们缺乏推理能力，且不能通过文本指令进行控制。相比之下，大型视觉-语言多模态模型展现出基于视觉的对话和推理能力的强大，但缺乏像素级理解，且在灵活的用户交互中难以接受视觉提示。本文提出了OMG-LLaVA这一新的优雅框架，它将强大的像素级视觉理解与推理能力相结合，可以接受各种视觉和文本提示以实现灵活的用户交互。具体来说，作者使用通用分割方法作为视觉编码器，将图像信息、感知先验和视觉提示整合到提供给LLM的视觉标记中。 LLM负责理解用户的文本指令，并根据视觉信息提供文本响应和像素级分割结果。作者提出了感知先验嵌入，以更好地将感知先验与图像特征相结合。 OMG-LLaVA在单一模型中实现了图像级、目标级和像素级的推理和理解，在 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博