讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
今天看啥  ›  专栏  ›  大语言模型和具身智体及自动驾驶

堆叠时间注意:改善第一人称的视频动作识别

大语言模型和具身智体及自动驾驶  · 公众号  ·  · 2024-08-23 00:04
    

文章预览

21年发表在BMVC的东京大学论文“Stacked Temporal Attention: Improving First-person Action Recognition by Emphasizing Discriminative Clips”。 第一人称动作识别是视频理解中的一项具有挑战性的任务。由于强烈的自我运动和有限的视野,第一人称视频中的许多背景或嘈杂帧可能会在动作识别模型的学习过程中分散其注意力。为了编码更具判别性的特征,模型需要能够专注于视频中最相关的部分以进行动作识别。以前的研究尝试通过应用时间注意机制来解决这个问题,但未能考虑整个视频的全局背景,这对于确定相对重要的部分至关重要。这项工作提出了一个简单但有效的堆叠时间注意模块 (STAM),根据视频剪辑片段中的全局知识来计算时间注意,以强调最具判别性的特征。通过堆叠多个自注意层来实现这一点。没有实验证明无效的简单堆叠,而是精心设计每个自注意层的 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览