大模型助力分割，刷新10项SOTA！清华和美团提出HyperSeg：通用分割框架

CVer · 公众号 · · 2024-12-17 13:05

文章预览

点击下方卡片，关注“ CVer ”公众号 AI/CV重磅干货，第一时间送达点击进入—> 【Mamba和分割】交流群添加微信号：CVer2233，小助手会拉你进群！扫描下方二维码，加入CVer学术星球！可以获得最新顶会/顶刊上的论文idea 和 CV从入门到精通资料，及最前沿应用！发论文/搞科研/涨薪，强烈推荐！近来，视觉大语言模型（VLLM）在多种视觉-语言理解任务中表现出色的推理和对话能力。然而，这些方法基于全局的视觉-语言对齐，限制了其在视觉感知任务中细节理解能力，如图像和视频域的像素级分割。近期的研究使VLLM能够进行细粒度的视觉理解，如指代分割（RES）和推理分割（ReasoningSeg）。尽管这些方法的表现令人瞩目，目前仍缺乏基于VLLM的通用分割框架，可以同时处理图像和视频域的诸多视觉感知任务，以及更复杂的推理分割任务，并且同时具 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博