专栏名称: DataFunSummit
DataFun社区旗下账号,专注于分享大数据、人工智能领域行业峰会信息和嘉宾演讲内容,定期提供资料合集下载。
目录
相关文章推荐
今天看啥  ›  专栏  ›  DataFunSummit

面向真实监控场景的多模态视频理解

DataFunSummit  · 公众号  ·  · 2024-09-17 18:00

文章预览

导读   本文将分享面向真实监控场景的多模态视频理解。 主要内容包括以下几大部分: 1.  多模态视频理解任务介绍 2.  真实监控视频数据集背景 3.   多模态视频理解小模型介绍 4.  多模态视频理解大模型介绍 5.  问答环节 分享嘉宾| 袁彤彤 北京工业大学  讲师 编辑整理| 晏世千 内容校对|李瑶 出品社区| DataFun 01 多模态视频理解任务介绍 首先来介绍一下视频理解有哪些场景。 1.   视频字幕生成 视频字幕生成是视频理解任务之一,这项技术可以用于生成电影字幕或视频描述等。 除了视频字幕生成外,研究还包括密集视频字幕生成。该技术是针对未剪辑的长视频,密集地生成与画面内容相关的文本描述。评估标准就是生成字幕的质量。 2.   视频时刻定位 第二个与视频理解相关的任务是视频时刻定位。这项任务的目标是从未剪辑的长视频 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览