【他山之石】大模型助力分割，刷新10项SOTA！清华和美团提出HyperSeg：通用分割框架

人工智能前沿讲习 · 公众号 · · 2024-12-19 18:00

文章预览

“他山之石，可以攻玉”，站在巨人的肩膀才能看得更高，走得更远。在科研的道路上，更需借助东风才能更快前行。为此，我们特别搜集整理了一些实用的代码链接，数据集，软件，编程技巧等，开辟“他山之石”专栏，助你乘风破浪，一路奋勇向前，敬请关注！首个基于视觉大语言模型（VLLM）的通用分割模型，能够处理像素级的图像和视频感知任务，并具备复杂的推理和对话能力。HyperSeg在多个分割任务中刷新了10项SOTA（State of the Art），展现了其在视觉-语言推理感知任务中的卓越性能。模型和代码已开源。近来，视觉大语言模型（VLLM）在多种视觉-语言理解任务中表现出色的推理和对话能力。然而，这些方法基于全局的视觉-语言对齐，限制了其在视觉感知任务中细节理解能力，如图像和视频域的像素级分割。近期的研究使VLLM能够进行细粒 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博