文章预览
摘要 具有双编码器架构的大规模预训练文本-图像模型(例如 CLIP Radford et al. (2021) )通常被用于各种视觉-语言应用,包括文本-图像检索。 然而,由于大量的索引和推理时间以及大量的计算资源消耗,这些模型在边缘设备或实时情况下仍然不太实用。 尽管知识蒸馏技术已被广泛用于单模态模型压缩,但很少有人研究如何将它们扩展到模态和教师/学生数量都加倍的情况。 In this paper, we conduct comprehensive experiments on this topic and propose the fully- C onnected kn o wledge interactio n gr a ph (Cona) technique for cross-modal pre-training distillation. 根据我们的发现,生成的 ConaCLIP 在广泛使用的 Flickr30K 和 MSCOCO 基准测试中,在轻量级设置下实现了 SOTA 性能。 我们方法在电子商务平台上的行业应用进一步证明了 ConaCLIP 的显著有效性。 1 1 引言 文本-图像检索(TIR)旨在从给定
………………………………