专栏名称: Coggle数据科学
Coggle全称Communication For Kaggle,专注数据科学领域竞赛相关资讯分享。
今天看啥  ›  专栏  ›  Coggle数据科学

小白学RAG:假设文档嵌入 HyDE

Coggle数据科学  · 公众号  ·  · 2024-06-20 15:24

文章预览

在没有相关性标签的情况下,创建有效的完全零样本稠密检索系统仍然是一个难题。通过假设文档嵌入(Hypothetical Document Embeddings, HyDE)可以缓解上述问题。 https://arxiv.org/pdf/2212.10496 unset unset HyDE 实现步骤 unset unset 步骤1:用户输入提问; 步骤2:大模型生成提问的回答。这个回答并不是真实的,可能包含错误的细节。 步骤3:通过编码器将生成的文档检索出相似的真实文档。 unset unset HyDE 优点 unset unset 零样本检索:HyDE 可以“开箱即用”,无需依赖大量标注示例的数据集。 跨语言:它在各种语言中表现良好,适用于多语言搜索应用。 灵活性:HyDE 的方法使其能够适应不同的任务,而无需进行大量的微调。 unset unset HyDE 实验 unset unset HyDE在各个方面都对Contriever带来了显著提升,无论是精度还是召回率指标。虽然无监督的Contriever在性能上可能不及经典 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览