专栏名称: AINLP

关注AI、NLP相关技术，关注算法研发职位和课程；回复"文章"获取历史信息；双语聊天机器人"无名"；中英翻译请输入：翻译翻译内容；自动对联，请输入：上联上联内容；调戏夸夸聊天机器人，请求夸、求赞；查询相似词，请输入: 相似词词条

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

【RAG论文】通过HyDE提升检索效果

AINLP · 公众号 · · 2024-06-27 09:29

文章预览

paper：https://arxiv.org/pdf/2212.10496 code：https://github.com/texttron/hyde 这篇文章主要做zero-shot场景下的稠密检索，通过借助LLM的力量不需要Relevance Labels，开箱即用。作者提出Hypothetical Document Embeddings (HyDE)方法，即“假设”文档嵌入。具体的做法是通过GPT生成虚构的文档，并使用无监督检索器对其进行编码，并在其嵌入空间中进行搜索，从而不需要任何人工标注数据。模型结构如下图所示，HyDE将密集检索分解为两个任务，即 instruction-following的LM生成任务和对比编码器执行的文档相似性任务。首先生成一个问题的答案对于给定一个query，将由InstructGPT生成一个能回答该query的假设文档，即a hypothetical document。使用生成的答案进行检索：使用无监督的稠密检索模型（Contriever）把该文档表示为稠密向量。最后基于最近邻从语料库中找到相似的文档，作为支撑信息 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

笔吧评测室 · 零刻 EQ14 迷你主机发布：英特尔 N150、内置电源，准系统首销 599 元

昨天

笔吧评测室 · AMD 被曝 RDNA4 后 GPU 全面转向 UDNA，MI400、RX 9000 同架构

2 天前

笔吧评测室 · VAIO SX14-R 轻薄本国内上架：勝色触控屏特别版 24988 元

3 天前

笔吧评测室 · 聊一款“幽默”的笔记本

5 天前

笔吧评测室 · 机械革命极光 15 笔记本新增“i5-12450HX + 16G + 512G + RTX4050”版本，5099 元

6 天前

尺度商业 · 6500亿国泰基金迎新总经理，权益类产品规模下降的情况能否改善？

3 月前

纳米人 · 同济大学，Nature Materials！

2 周前

中国电信 · 公开招聘！

2 周前