TPAMI 2024 | 层次增强与蒸馏：面向类别增量音频-视觉视频识别的研究

深度学习基础与进阶 · 公众号 · · 2024-11-04 08:34

文章预览

题目：Hierarchical Augmentation and Distillation for Class Incremental Audio-Visual Video Recognition 层次增强与蒸馏：面向类别增量音频-视觉视频识别的研究作者：Yukun Zuo; Hantao Yao; Liansheng Zhuang; Changsheng Xu 源码链接： https://github.com/Play-in-bush/HAD 摘要音频-视觉视频识别（AVVR）通过整合音频和视觉线索来准确分类视频。尽管当前使用提供的数据集的方法取得了令人满意的结果，但它们在现实世界中新类别出现时保留历史类别知识方面面临挑战。目前还没有专门的方法来解决这一问题，这促使本文探索类别增量音频-视觉视频识别（CIAVVR）。CIAVVR旨在保留存储数据和过去类别模型中包含的历史知识，以防止灾难性遗忘。音频-视觉数据和模型在本质上具有层次结构，其中模型包含低级和高级语义信息，数据包括片段级、视频级和分布级空间信息。充分利用这些层次结构对 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博