文章预览
提纲 1 简介 2 方法 2.1 Weak-supervised Pre-training 2.2 Supervised Finetuning 3 实验 4 实验结论 5 讨论 参考文献 1 简介 很多之前的text embedding工作都强调过了hard negative挖掘策略的重要性,但这些策略通常只会被应用到数据预处理阶段。于是就有研究人员提出了 conan-embedding,通过利用更多跟更高跟更高质量的hard negative来提升模型能力,一方面提出了动态的hard negative策略,另一方面提出了Cross-GPU Balancing Loss。最终训练得到的模型在中文MTEB榜单多个任务上表现非常优异。 图1: CMTEB榜单(2024.10.10) 2 方法 跟很多之前工作一样,conan-embedding采用的也是多阶段训练策略,包括两个阶段,依次是Weak-supervised training跟 supervised training,如下图所示 。 图2: Conan-embedding训练流程 2.1 Weak-supervised Pre-training 在预训练阶段,研究人员搜集了7.5亿的文
………………………………