专栏名称: 旺知识
AI技术最新进展、发展趋势、研发经验、从业经验
今天看啥  ›  专栏  ›  旺知识

长语境RAG突破:LongRAG如何颠覆传统问答,开启智能检索新篇章?

旺知识  · 公众号  ·  · 2024-07-07 16:21

文章预览

在传统的RAG框架中,基本的检索单元通常是短的。像DPR这样的常见检索器通常使用100个词的维基百科段落。这样的设计迫使检索器在大型语料库中搜索“针”单元。相比之下,阅读器只需要从这些短的检索单元中提取答案。这种不平衡的“重”检索器和“轻”阅读器设计可能导致次优性能。为了缓解这种不平衡,我们提出了一个新的框架LongRAG,由一个“长检索器”和一个“长阅读器”组成。LongRAG将整个维基百科处理成4K个词的单元,比以前长30倍。通过增加单元大小,我们将总单元数从2200万减少到60万。这显著降低了检索器的负担,从而显著提高了检索得分:在NQ上的答案召回率@1达到了71%(之前是52%),在HotpotQA(全维基)上的答案召回率@2达到了72%(之前是47%)。然后我们将前k个检索单元(约30K个词)输入到现有的长上下文LLM中,以零样本方式 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览