专栏名称: PaperAgent

日更，解读AI前沿技术热点Paper

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

相关文章推荐

周末做啥 · 一口水烟，一场电影！在RICH开启沉浸式感官体验！ · 昨天

广西文化和旅游厅 · 2025年1月广西文化和旅游新媒体传播力月度榜单 · 昨天

深圳大件事 · 知名上市深企实控人，押百亿股权还债！曾操盘深 ... · 昨天

深圳大件事 · 今起，这区域暂停开放！深圳知名景区提醒 · 2 天前

苏州新闻 · 暂停开放！别跑空！ · 3 天前

今天看啥 › 专栏 › PaperAgent

一种比直接chunking更高效的RAG检索策略，R@1提升16%

PaperAgent · 公众号 · · 2024-05-22 15:37

文章预览

RAG框架的核心在于将文档分割成独立的块（ chunks ），然后通过检索过程识别与给定查询相关的块，并将检索到的块（以及查询）作为提示传递给合成模型LLM以生成所需的响应。然而，检索步骤可能成为性能瓶颈，因为错误的块可能导致合成LLM生成错误的响应（ garbage in，garbage out ）。为了解决这个问题，提出了一种零样本（zeroshot）适应标准密集检索步骤的方法，以提高块的准确召回（recall）。具体来说，将块分解为原子陈述（ atomic statements ），然后基于这些原子生成一组合成问题（以块作为上下文），通过密集检索找到与用户查询最接近的合成问题集合及其相关的块。使用原子单位基于问题的检索，用于企业RAG 各环节（query改写，原子化，问题生成）的prompt 使用了重新格式化的SQuAD数据集来评估RAG框架。该数据集包含 2,067个块和10,570个 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博