香港大学 & 加州大学 & 上海 AI Lab 提出 ViLLa，利用大型语言模型实现视频推理分割！

arXiv每日学术速递 · 公众号 · · 2024-08-01 20:02

文章预览

尽管视频感知模型在近年来取得了显著进展，但它们仍然在很大程度上依赖于明确的文本描述或预先定义的类别，以在执行视频感知任务之前识别目标实例。然而，这些模型未能通过文本输入主动理解和推理用户的意图。尽管以往的研究尝试探索在图像分割中结合推理的解决方案，但由于视频在物体运动上的复杂性，它们未能对视频进行推理。为了弥合图像与视频之间的差距，在这项工作中，作者提出了一种新的视频分割任务——视频推理分割。该任务旨在给定一个复杂的输入文本 Query 时，输出分割 Mask 的轨迹片段。更重要的是，为了推动这一未探索领域的研究，作者构建了一个推理视频分割基准。最后，作者介绍了 ViLLa ： V ideo reasoning segmentation with L arge L anguage Model，它结合了多模态大型语言模型（LLM）的语言生成能力，同时保留了检测、分 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

刀法研究所 · 在“心价比”时代，品牌如何借势热点情绪，实现快速崛起？｜破界·2024刀法年度品效峰会

5 小时前

刀法研究所 · 这么用 AIGC，你就超过了 90% 营销人｜破界·2024刀法年度品效峰会

2 天前

刀法研究所 · 【提前收藏】参会指南 | 破界·2024刀法年度品效峰会

5 天前

刀法研究所 · 如何以“乘法式”价值创新，战胜增长焦虑？｜破界·2024刀法年度品效峰会

6 天前

万能的大熊 · 我之前有个同学天天跟着行长儿子打游戏毕业给他安排进人行了-20240710210249

4 月前

书画文化 · 佛说：人生八度，你有几度？

1 月前

混沌学园 · 破局之道——混沌2025企业学习主题发布会

1 月前

香港大学 & 加州大学 & 上海 AI Lab 提出 ViLLa，利用大型语言模型实现视频推理分割 ！

文章预览

香港大学 & 加州大学 & 上海 AI Lab 提出 ViLLa，利用大型语言模型实现视频推理分割！