专栏名称: arXiv每日学术速递
跟踪计算机视觉、人工智能、机器学习、NLP、语音识别、量化金融等热门方向学术信息
今天看啥  ›  专栏  ›  arXiv每日学术速递

ConaCLIP:探索用于轻量级文本-图像检索的全连接知识交互图的蒸馏

arXiv每日学术速递  · 公众号  ·  · 2024-11-09 17:04
    

文章预览

摘要 具有双编码器架构的大规模预训练文本-图像模型(例如 CLIP  Radford et al. (2021) )通常被用于各种视觉-语言应用,包括文本-图像检索。 然而,由于大量的索引和推理时间以及大量的计算资源消耗,这些模型在边缘设备或实时情况下仍然不太实用。 尽管知识蒸馏技术已被广泛用于单模态模型压缩,但很少有人研究如何将它们扩展到模态和教师/学生数量都加倍的情况。 In this paper, we conduct comprehensive experiments on this topic and propose the fully- C onnected kn o wledge interactio n  gr a ph (Cona) technique for cross-modal pre-training distillation. 根据我们的发现,生成的 ConaCLIP 在广泛使用的 Flickr30K 和 MSCOCO 基准测试中,在轻量级设置下实现了 SOTA 性能。 我们方法在电子商务平台上的行业应用进一步证明了 ConaCLIP 的显著有效性。  1 1 引言 文本-图像检索(TIR)旨在从给定 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览