一个百度人的技术提升之路,为您提供一系列计算机视觉,自然语言处理和推荐系统等高质量技术文章,让您的碎片化时间最大价值化
今天看啥  ›  专栏  ›  深度学习基础与进阶

TPAMI 2024 | 层次增强与蒸馏:面向类别增量音频-视觉视频识别的研究

深度学习基础与进阶  · 公众号  ·  · 2024-11-04 08:34
    

文章预览

题目:Hierarchical Augmentation and Distillation for Class Incremental Audio-Visual Video Recognition 层次增强与蒸馏:面向类别增量音频-视觉视频识别的研究 作者:Yukun Zuo; Hantao Yao; Liansheng Zhuang; Changsheng Xu 源码链接: https://github.com/Play-in-bush/HAD 摘要 音频-视觉视频识别(AVVR)通过整合音频和视觉线索来准确分类视频。尽管当前使用提供的数据集的方法取得了令人满意的结果,但它们在现实世界中新类别出现时保留历史类别知识方面面临挑战。目前还没有专门的方法来解决这一问题,这促使本文探索类别增量音频-视觉视频识别(CIAVVR)。CIAVVR旨在保留存储数据和过去类别模型中包含的历史知识,以防止灾难性遗忘。音频-视觉数据和模型在本质上具有层次结构,其中模型包含低级和高级语义信息,数据包括片段级、视频级和分布级空间信息。充分利用这些层次结构对 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览