文章预览
一、背景 随着大模型时代的爆发,检索增强生成技术(RAG)在大语言模型中广泛应用。RAG是一种性价比极高的方案,在大语言模型中占据重要地位。RAG(Retrieval-Augmented Generation)检索增强生成,即大模型LLM在回答问题或生成文本时,会先从大量的文档中检索出相关信息,然后基于这些检索出的信息进行回答或生成文本,从而可以提高回答的质量,而不是任由LLM来发挥。 Embedding模型作为RAG中检索召回的重要一环,扮演着极其关键的角色,直接影响到信息检索的效果和生成文本的质量。更加准确的Embedding模型在抑制模型幻觉、提升封闭领域回答能力等方面都能发挥优势。 为了解决传统机器学习文本处理中的维度灾难和特征语义信息捕捉不足的问题,研究者们提出了许多新的Embedding模型,它可以将高维度的数据转化为低维度的嵌入空间,并保留原始
………………………………