专栏名称: AINLPer
一个专注自然语言处理(NLP)方向的公众号。机器学习(ML)、深度学习(DL)、自然语言处理相关模型理解、热门论文(Paper)分享分析、pytorch、C++、Python、Java ...
今天看啥  ›  专栏  ›  AINLPer

韩大 | 提出Syntriever框架,利用LLM合成数据,专注RAG检索模型训练!

AINLPer  · 公众号  ·  · 2025-02-10 22:30
    

文章预览

点击上方 “ AINLPer “ ,设为 星标 更多干货,第一时间送达 引言 大语言模型(LLMs)在检索和问答任务中表现优秀,但受限于静态数据,难以获取最新信息且可能生成错误内容。检索增强生成(RAG)通过外部检索提升LLMs的可靠性,但 「现有检索器训练方法依赖人工标注或LLMs输出,成本高且受限」 。 为此,本文提出Syntriever,一种基于合成数据和LLM偏好对齐的检索器训练框架。它生成细粒度查询和样本,并通过自验证去除错误数据,利用排序优化检索结果。实验表明,Syntriever在多个数据集上表现优异, 最高提升18.6% ,并在零样本任务中展现了强大的泛化能力,证明合成数据和偏好对齐能有效提升检索器性能。 论文:https://arxiv.org/pdf/2502.03824 代码:https://github.com/kmswin1/Syntriever 研究背景 大型语言模型(LLMs)已经成为自然语言处理(NLP)的核心技 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览