文章预览
对比语言-图像预训练(CLIP)被广泛用于训练模型,在共同的嵌入空间中对齐图像和文本,通过将它们映射到固定大小的向量。 这些模型对于多模态信息检索及相关任务至关重要。然而,与专门的文本模型相比,CLIP模型在仅文本任务上通常表现不佳。 这对于在仅文本和多媒体任务中保持分离的嵌入和模型的信息检索系统来说是不高效的。 作者提出了一种新颖的多任务对比训练方法来解决这一问题,作者使用该方法训练jina-clip-v1模型,在文本-图像和文本-文本检索任务上都取得了最先进的表现。 1 Introduction 文本-图像对比训练模型,如CLIP(Radford等人,2021年),通过利用图像及其对应标题的配对,创建了一个图像和文本的对齐表示空间。同样,文本-文本对比训练模型,如jina-embeddings-v2(Gunther等人,2023年),通过使用具有已知语义关系的相关文本配
………………………………