理解时间戳的视频理解大模型CogVLM2开源！视频生成、视频摘要等任务有力工具！

魔搭ModelScope社区 · 公众号 · · 2024-07-09 20:38

文章预览

随着大型语言模型和多模态对齐技术的发展，视频理解模型在通用开放领域也取得了长足的进步。然而，目前大多数视频理解模型采用帧平均和视频 token 压缩的方法，导致时间信息丢失，无法准确回答时间相关的问题。另一方面，一些专注于时间问答数据集的模型过度局限于特定的格式和适用领域，导致模型丧失了更通用的问答能力。CogVLM团队引入多帧视频图像和时间戳作为编码器输入，训练了一个新的视频理解模型 — CogVLM2-Video。CogVLM2-Video 不仅在公开的视频理解基准上取得了最佳表现，而且在视频字幕和时间基础方面也表现出色，为后续的视频生成、视频摘要等任务提供了有力的工具。模型效果： 01 模型架构目前视频理解的主流思路是利用图像编码器从视频中提取帧，对其进行编码，然后设计编码压缩模块（如时间池化或Q-Former模块）对视 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

北京大学百周年纪念讲堂 · 3.9【李莹厅】基因三重奏合作二十年｜贝多芬钢琴三重奏系列音乐会1继往开来的先声

21 小时前

小强热线浙江教科 · 知名歌手突然病逝，年仅39岁！警惕：这个病越来越年轻化

昨天

小强热线浙江教科 · 知名歌手突然病逝，年仅39岁！警惕：这个病越来越年轻化

昨天

大皖新闻 · 知名歌手自曝患抑郁症

昨天

金华晚报 · 再次道歉！全额退款

2 天前

温州都市报 · 董宇辉个人单曲上线，网友：期待出演偶像剧

2 天前

温州都市报 · 董宇辉个人单曲上线，网友：期待出演偶像剧

2 天前

生物岛 · Mol Cancer丨山东大学杨其峰团队强调了外泌体circSIPA1L3介导在三阴性乳腺癌中的进展

6 月前

生物岛 · Mol Cancer丨山东大学杨其峰团队强调了外泌体circSIPA1L3介导在三阴性乳腺癌中的进展

6 月前

机器人大讲堂 · NatureCommunications发表！北卡罗来纳州立大学研究团队提出基于多面体的分层构建方法，实现 1000+形状变形！

6 月前

国际家居 · 精致奢华的豪宅，让人折服！

4 月前

国际家居 · 精致奢华的豪宅，让人折服！

4 月前