面向真实监控场景的多模态视频理解

DataFunSummit · 公众号 · · 2024-09-17 18:00

文章预览

导读本文将分享面向真实监控场景的多模态视频理解。主要内容包括以下几大部分： 1. 多模态视频理解任务介绍 2. 真实监控视频数据集背景 3. 多模态视频理解小模型介绍 4. 多模态视频理解大模型介绍 5. 问答环节分享嘉宾｜袁彤彤北京工业大学讲师编辑整理｜晏世千内容校对｜李瑶出品社区｜ DataFun 01 多模态视频理解任务介绍首先来介绍一下视频理解有哪些场景。 1. 视频字幕生成视频字幕生成是视频理解任务之一，这项技术可以用于生成电影字幕或视频描述等。除了视频字幕生成外，研究还包括密集视频字幕生成。该技术是针对未剪辑的长视频，密集地生成与画面内容相关的文本描述。评估标准就是生成字幕的质量。 2. 视频时刻定位第二个与视频理解相关的任务是视频时刻定位。这项任务的目标是从未剪辑的长视频 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博