文章预览
导读 本文将分享面向真实监控场景的多模态视频理解。 主要内容包括以下几大部分: 1. 多模态视频理解任务介绍 2. 真实监控视频数据集背景 3. 多模态视频理解小模型介绍 4. 多模态视频理解大模型介绍 5. 问答环节 分享嘉宾| 袁彤彤 北京工业大学 讲师 编辑整理| 晏世千 内容校对|李瑶 出品社区| DataFun 01 多模态视频理解任务介绍 首先来介绍一下视频理解有哪些场景。 1. 视频字幕生成 视频字幕生成是视频理解任务之一,这项技术可以用于生成电影字幕或视频描述等。 除了视频字幕生成外,研究还包括密集视频字幕生成。该技术是针对未剪辑的长视频,密集地生成与画面内容相关的文本描述。评估标准就是生成字幕的质量。 2. 视频时刻定位 第二个与视频理解相关的任务是视频时刻定位。这项任务的目标是从未剪辑的长视频
………………………………