今天看啥  ›  专栏  ›  专知

【NeurIPS2024】MoTE:在视觉语言到视频知识转移中协调泛化与专门化

专知  · 公众号  · AI 科技自媒体  · 2024-10-17 12:00
    

主要观点总结

文章主要介绍了从大规模基础模型中转移视觉语言知识在视频识别中的应用,以及存在的零样本泛化能力减弱的问题。为此,文章提出了MoTE框架,能够在统一模型中平衡泛化和专门化,学习多个任务视角并适应不同程度的数据拟合。该框架通过权重合并正则化和时间特征调制来保留专家的知识并正则化测试期间时间特征的贡献。文章在多个数据集上取得了最先进的或具有竞争力的结果。

关键观点总结

关键观点1: 视觉语言知识的转移应用于视频识别

文章讨论了大规模基础模型在视频识别中的应用,以及为何需要转移视觉语言知识来提高性能。

关键观点2: MoTE框架的提出

为了解决零样本泛化能力减弱的问题,文章提出了MoTE框架,该框架能够在统一模型中平衡泛化和专门化,并学习多个任务视角。

关键观点3: MoTE框架的正则化技术

为了保留专家的知识并正则化测试期间时间特征的贡献,文章提出了权重合并正则化和时间特征调制两种技术。

关键观点4: 在多个数据集上的先进结果

文章在多个数据集(包括Kinetics-400、Kinetics-600、UCF和HMDB)上通过使用MoTE框架取得了最先进的或具有竞争力的结果。


文章预览

从大规模基础模型中转移视觉语言知识以用于视频识别已经被证明是有效的。为了弥合领域差距,额外的参数模块被添加以捕捉时间信息。然而,随着专用参数数量的增加,零样本泛化能力逐渐减弱,使得现有的方法在零样本泛化和闭集性能之间需要进行权衡。在本文中,我们提出了MoTE,一个新颖的框架,能够在一个统一的模型中平衡泛化和专门化。我们的方法通过调整一组时间专家的混合体来学习多个任务视角,并适应不同程度的数据拟合。为了最大程度地保留每个专家的知识,我们提出了“权重合并正则化”,它在权重空间中对专家的合并过程进行正则化。此外,通过时间特征调制来正则化测试期间时间特征的贡献。我们在零样本和闭集视频识别任务之间实现了良好的平衡,并在多个数据集(包括Kinetics-400 & 600、UCF和HMDB)上获得了最先进的 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览