文章预览
点击下方卡片,关注 「AI视界引擎」 公众号 ( 添加时备注:方向+学校/公司+昵称/姓名 ) 对比语言图像预训练(CLIP)在对比学习技术的帮助下,在图像与文本之间的语义信息的整合方面表现出色。它在各种多模态任务上取得了显著的性能。然而,在资源受限的环境中,部署大型CLIP模型受到限制,而较小的模型往往无法达到满足实际应用所需性能评估的指标。 在本文中,作者提出了一种新颖的方法,名为ComKD-CLIP:综合知识蒸馏对比语言图像预训练模型,其目标是将大型教师CLIP模型中的知识全面地蒸馏到较小的学生模型中,同时确保可比较的性能而参数量显著减少。 ComKD-CLIP由两个关键机制组成:图像特征对齐(IFAlign)和教育注意(EduAttention)。 IFAlign使学生模型提取的图像特征与教师模型提取的图像特征密切匹配,使学生模型能够学习教师提取图
………………………………