整理自然语言处理、推荐系统、搜索引擎等AI领域的入门笔记,论文学习笔记和面试资料(关于NLP那些你不知道的事、关于推荐系统那些你不知道的事、NLP百面百搭、推荐系统百面百搭、搜索引擎百面百搭)
今天看啥  ›  专栏  ›  关于NLP那些你不知道的事

LLM做Sentence Embedding的通用方案

关于NLP那些你不知道的事  · 公众号  ·  · 2024-08-01 07:00

文章预览

作者:高瞻远 原 文 地址: https://zhuanlan.zhihu.com/p/710746339 前言 最近在做RAG相关的项目,在做检索模型的时候,由于我的需求更偏向于主题检索且需要较大的通用性。现有的检索模型bge、m3e等更偏向于语义匹配,即使针对主题做模型微调也没有很好的通用性,不能很好的完成需求。尝试直接使用LLM做Embedding,主要思想是将输入添加Prompt(将输入总结成一个词),然后使用最后一个词的最后一层作为整个输入的Embedding。 这里细读下面的2篇文章,并在中文的主题分类数据集上进行测试(这里使用公开数据集-科大讯飞的长文本分类),之后希望能在项目中有较好的应用。另外,由于两篇文章的思路比较简单,这里只做简单介绍,直接在数据集上测指标。 Simple Techniques for Enhancing Sentence Embeddings in Generative Language Models 原始论文:  https:// https://arxiv.org/pdf/2404. ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览