【NeurIPS2024】MoTE：在视觉语言到视频知识转移中协调泛化与专门化

数据派THU · 公众号 · 大数据 · 2024-10-25 17:00

文章预览

来源：专知本文约1000字，建议阅读 5 分钟在本文中，我们提出了MoTE，一个新颖的框架，能够在一个统一的模型中平衡泛化和专门化。从大规模基础模型中转移视觉语言知识以用于视频识别已经被证明是有效的。为了弥合领域差距，额外的参数模块被添加以捕捉时间信息。然而，随着专用参数数量的增加，零样本泛化能力逐渐减弱，使得现有的方法在零样本泛化和闭集性能之间需要进行权衡。在本文中，我们提出了MoTE，一个新颖的框架，能够在一个统一的模型中平衡泛化和专门化。我们的方法通过调整一组时间专家的混合体来学习多个任务视角，并适应不同程度的数据拟合。为了最大程度地保留每个专家的知识，我们提出了“权重合并正则化”，它在权重空间中对专家的合并过程进行正则化。此外，通过时间特征调制来正则化测试期间时间特 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

数据派THU · AI揭示太阳大气中的隐藏秘密，将改变我们对太阳的理解

4 天前

Sixth Tone · In China, Starbucks Feels the Heat From Homegrown Coffee Chains

6 月前

器械之家 · 最新9款AI心脏病学设备

6 月前

从宇宙大爆炸到PPC · 【流量倍增】亚马逊广告打法全公开，让你的销量飞起来！

5 月前

周末做啥 · 《2024亚洲酒旅大赏》获奖揭晓，万众瞩目的荣誉时刻完美呈现！

1 月前