文章预览
TC-LLaVA: Rethinking the Transfer from Image to Video Understanding with Temporal Considerations 论文: https://arxiv.org/abs/2409.03206v1 TC-LLaVA 是一种创新的视频语言框架,由腾讯PCG联合香港理工和大连理工的研究人员开发,旨在通过增强大型语言模型(LLMs)的跨层注意力计算来提升视频理解任务的性能。 该框架通过引入时间感知的双重旋转位置编码(Temporal-Aware Dual RoPE)和帧级块因果注意力掩码(Frame-wise Block Causal Attention Mask),显著提高了模型处理视频数据时的时间建模能力和视觉token交互效果。Temporal-Aware Dual RoPE通过为每个token分配独立的位置ID并引入时间感知RoPE,不仅保留了视觉和文本token之间的相对位置关系,还强化了模型对视频帧内和帧间时间动态的捕捉能力。而帧级块因果注意力掩码则通过优化注意力计算中的token交互策略,增强了视频帧内外视觉token的互动
………………………………