TC-LLaVA：来自腾讯PCG的视频理解时序感知大语言模型框架

ADFeed · 公众号 · · 2024-09-20 11:15

文章预览

TC-LLaVA: Rethinking the Transfer from Image to Video Understanding with Temporal Considerations 论文： https://arxiv.org/abs/2409.03206v1 TC-LLaVA 是一种创新的视频语言框架，由腾讯PCG联合香港理工和大连理工的研究人员开发，旨在通过增强大型语言模型（LLMs）的跨层注意力计算来提升视频理解任务的性能。该框架通过引入时间感知的双重旋转位置编码（Temporal-Aware Dual RoPE）和帧级块因果注意力掩码（Frame-wise Block Causal Attention Mask），显著提高了模型处理视频数据时的时间建模能力和视觉token交互效果。Temporal-Aware Dual RoPE通过为每个token分配独立的位置ID并引入时间感知RoPE，不仅保留了视觉和文本token之间的相对位置关系，还强化了模型对视频帧内和帧间时间动态的捕捉能力。而帧级块因果注意力掩码则通过优化注意力计算中的token交互策略，增强了视频帧内外视觉token的互动 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博