专栏名称: ADFeed
🧠 AI DevFeed:AI 技术研习与产业观察。
目录
相关文章推荐
今天看啥  ›  专栏  ›  ADFeed

TC-LLaVA:来自腾讯PCG的视频理解时序感知大语言模型框架

ADFeed  · 公众号  ·  · 2024-09-20 11:15

文章预览

TC-LLaVA: Rethinking the Transfer from Image to Video Understanding with Temporal Considerations 论文: https://arxiv.org/abs/2409.03206v1 TC-LLaVA  是一种创新的视频语言框架,由腾讯PCG联合香港理工和大连理工的研究人员开发,旨在通过增强大型语言模型(LLMs)的跨层注意力计算来提升视频理解任务的性能。 该框架通过引入时间感知的双重旋转位置编码(Temporal-Aware Dual RoPE)和帧级块因果注意力掩码(Frame-wise Block Causal Attention Mask),显著提高了模型处理视频数据时的时间建模能力和视觉token交互效果。Temporal-Aware Dual RoPE通过为每个token分配独立的位置ID并引入时间感知RoPE,不仅保留了视觉和文本token之间的相对位置关系,还强化了模型对视频帧内和帧间时间动态的捕捉能力。而帧级块因果注意力掩码则通过优化注意力计算中的token交互策略,增强了视频帧内外视觉token的互动 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览
推荐文章