专栏名称: AI大模型学习基地

人工智能AIGC行业探索分享，包括相关技术分享和资讯分享，以及相关商务洽谈合作。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

相关文章推荐

融媒吴江 · 公示！吴江将启用这些“电子眼”！ · 8 小时前

财联社AI daily · GPT-4.5通过图灵测试！ · 11 小时前

济南时报 · 小米SU7爆燃事故车主：车上3人曾2次在途中 ... · 昨天

36氪汽车 · 小米事故揭示的智驾现实：科技盛誉和夺命2秒钟 · 昨天

酷玩实验室 · 金价凶猛，土法废料炼金硬控年轻人 · 昨天

今天看啥 › 专栏 › AI大模型学习基地

大语言模型的视频推理分割--ViLLa

AI大模型学习基地 · 公众号 · · 2024-08-03 23:23

文章预览

ViLLa（Video Reasoning Segmentation with Large Language Model）焦于视频理解中的一个新颖而具有挑战性的任务——视频推理分割。传统视频感知模型往往受限于对显式文本描述或预定义类别的依赖，缺乏理解用户隐含意图的能力，尤其是在处理复杂物体运动的视频场景中。为此，论文提出了视频推理分割任务，旨在根据复杂的文本查询输出视频中目标实例的分割掩码序列。不同于常规的参照视频对象分割，该任务要求模型能够处理复杂的实例描述，涉及深层次的推理和世界知识，以及物体运动信息的捕捉。为推动这一领域的研究进展，作者们构建了一个视频推理分割基准，并开发了 ViLLa 模型，该模型融合了大型语言模型的语言生成能力，同时具备检测、分割和跟踪视频中多个实例的能力。通过引入时间感知上下文聚合模块和视频帧解码器， ViLLa 成功地建立 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

融媒吴江 · 公示！吴江将启用这些“电子眼”！

8 小时前

融媒吴江 · 公示！吴江将启用这些“电子眼”！

8 小时前

财联社AI daily · GPT-4.5通过图灵测试！

11 小时前

济南时报 · 小米SU7爆燃事故车主：车上3人曾2次在途中休息，质疑小米公布信息

昨天

济南时报 · 小米SU7爆燃事故车主：车上3人曾2次在途中休息，质疑小米公布信息

昨天

36氪汽车 · 小米事故揭示的智驾现实：科技盛誉和夺命2秒钟

昨天

36氪汽车 · 小米事故揭示的智驾现实：科技盛誉和夺命2秒钟

昨天

酷玩实验室 · 金价凶猛，土法废料炼金硬控年轻人

昨天

葡萄酒商业观察 · 探索国产葡萄酒新篇章世界冠军马琳成为威龙品牌形象代言人

7 月前

青年报 · 从成绩倒数到拿下全国冠军，他用了半年！

2 周前