今天看啥  ›  专栏  ›  宅码

通用文本表征BGE是怎么训练出来的?

宅码  · 公众号  ·  · 2024-08-04 22:59
    

文章预览

2023年北京智源人工智能研究院发表论文《C-Pack: Packed Resources For General Chinese Embeddings》[1],其中BGE embedding便开始广泛被开发者用于RAG的向量检索。深读这篇文章和相关参考文献,对检索用的Embeddings一探究竟后,发现涉及知识点还挺多:自编码器、对比学习、指令微调等,推荐指数:5星。不足之处,还望批评指正。 图:C-Pack三大贡献:1)C-MTEB:中文文本向量评测数据集;2)C-MTP:大型中文向量训练数据集、3)BGE:SOTA的中文向量模型 略过数据和评测,我们主要介绍下BGE(BAAI General Embedding )的训练,它有3个阶段: (1)预训练: 用Wudao纯文本语料训练,利用了RetroMAE,重建污染的编码向量; (2)弱监督学习: 用C-MTP无标签数据集训练,对比学习从负样本中如何区分出成对的文本; (3)有监督微调: 用C-MTP有监督数据集训练,由于标签数据是多任 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览