如何白嫖超大规模模型的性能？ | ComKD-CLIP让你无痛白嫖大模型性能！

arXiv每日学术速递 · 公众号 · · 2024-08-14 12:14

文章预览

对比语言图像预训练（CLIP）在对比学习技术的帮助下，在图像与文本之间的语义信息的整合方面表现出色。它在各种多模态任务上取得了显著的性能。然而，在资源受限的环境中，部署大型CLIP模型受到限制，而较小的模型往往无法达到满足实际应用所需性能评估的指标。在本文中，作者提出了一种新颖的方法，名为ComKD-CLIP：综合知识蒸馏对比语言图像预训练模型，其目标是将大型教师CLIP模型中的知识全面地蒸馏到较小的学生模型中，同时确保可比较的性能而参数量显著减少。 ComKD-CLIP由两个关键机制组成：图像特征对齐（IFAlign）和教育注意（EduAttention）。 IFAlign使学生模型提取的图像特征与教师模型提取的图像特征密切匹配，使学生模型能够学习教师提取图像特征的知识。EduAttention探讨了教师模型和学生的提取模式之间的关系，使学生模型能够 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

如何白嫖超大规模模型的性能？ | ComKD-CLIP让你无痛白嫖大模型性能 ！

文章预览

如何白嫖超大规模模型的性能？ | ComKD-CLIP让你无痛白嫖大模型性能！