文章预览
对比语言图像预训练(CLIP)在对比学习技术的帮助下,在图像与文本之间的语义信息的整合方面表现出色。它在各种多模态任务上取得了显著的性能。然而,在资源受限的环境中,部署大型CLIP模型受到限制,而较小的模型往往无法达到满足实际应用所需性能评估的指标。 在本文中,作者提出了一种新颖的方法,名为ComKD-CLIP:综合知识蒸馏对比语言图像预训练模型,其目标是将大型教师CLIP模型中的知识全面地蒸馏到较小的学生模型中,同时确保可比较的性能而参数量显著减少。 ComKD-CLIP由两个关键机制组成:图像特征对齐(IFAlign)和教育注意(EduAttention)。 IFAlign使学生模型提取的图像特征与教师模型提取的图像特征密切匹配,使学生模型能够学习教师提取图像特征的知识。EduAttention探讨了教师模型和学生的提取模式之间的关系,使学生模型能够
………………………………