今天看啥  ›  专栏  ›  圆圆的算法笔记

Tiktok多模态大模型最新研究:显示序列建模提升视频理解能力

圆圆的算法笔记  · 公众号  ·  · 2025-02-19 23:45
    

文章预览

点关注,不迷路,用心整理每一篇算法干货~ 后台留言” 交流 “, 加入圆圆算法交流群~ 扫码加入👇 海量干货资料下载 ( 已有 1000+ 同学加入学习, 800+ 干货笔记) 今天给大家介绍一篇视频多模态大模型工作,这篇文章的核心是探索了在现有的SOTA视频多模态大模型中,引入显示的视频时序建模提升模型的视频理解能力。 论文标题 :Exploring the Role of Explicit Temporal Modeling in Multimodal Large Language Models for Video Understanding 下载地址 : https://arxiv.org/pdf/2501.16786 1 研究背景 传统的时间序列预测方法,都是最基础的时间序列形式数据进行建模的。然而,最近一些工作将文本信息、图像信息等模态引入时间序列建模中。例如,将时间序列转换成文本形式输入到LLM,或者将时间序列转换成图像数据输入图像模型。 视频多模态大模型一般都基于训练好的Large Language ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览