专栏名称: 腾讯技术工程
腾讯技术工程事业群官方微信公众号。腾讯前沿科技技术、产品、行业信息交流发布平台。
今天看啥  ›  专栏  ›  腾讯技术工程

探索更强中文Embedding模型:Conan-Embedding

腾讯技术工程  · 公众号  ·  · 2024-09-27 18:00

文章预览

作者:ethanntang 本文主要分享我们近期在Embedding模型训练上的工作「Conan-Embedding」。目前,Conan-Embedding已在最全面、最大规模的中文语义向量评测榜单C-MTEB上达到SOTA,超越了阿里、百川、OpenAI等众多Embedding模型。 图片由Venus-AI Draw平台生成并进行风格化 引言 概述 随着大模型时代的爆发,检索增强生成技术(RAG)在大语言模型中广泛应用。RAG是一种性价比极高的方案,在大语言模型中占据重要地位。Embedding模型作为RAG中检索召回的重要一环,扮演着极其关键的角色。更加准确的Embedding模型在抑制模型幻觉、增强新热知识表现、提升封闭领域回答能力等方面都能发挥优势。 为了提升RAG系统的性能表现,我们近期针对如何训练更强的Embedding模型进行探索,训练得到了目前最强中文Embedding模型「Conan-Embedding」,该模型已在C-MTEB上达到SOTA。 图1 C-MTEB榜单结 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览