今天看啥  ›  专栏  ›  圆圆的算法笔记

时间敏感的长视频多模态大模型

圆圆的算法笔记  · 公众号  ·  · 2025-01-11 09:47
    

文章预览

点关注,不迷路,用心整理每一篇算法干货~ 后台留言” 交流 “, 加入圆圆算法交流群~ 扫码加入 系统 深入 学习时间序列知识 ( 已有 990+ 同学加入学习, 800+ 干货笔记) 今天给大家介绍一篇北大、华为联合推出的具有时间敏感度的多模态长视频理解模型。本文通过提出一种具有时间敏感度的多模态视频理解模型,通过视觉编码器与时间戳绑定。以及设计了一种滑动窗口的q-former来适应不同的长度的视频。 论文标题 :TimeChat: A Time-sensitive Multimodal Large Language Model for Long Video Understanding 下载地址 : https://arxiv.org/pdf/2312.02051 开源代码 : https://github.com/RenShuhuai-Andy/TimeChat 1 研究背景 长视频理解是一个比较困难的多模态建模问题,存在非常多的挑战。概括起来主要包括以下4点。 丰富的细粒度时空细节 :长视频涵盖了广泛的话题、场景和活动,包含了 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览