文章预览
当前RAG进展集中在通过迭代的LLMs精细化处理或通过LLMs的额外指令调整获得的 自我批评能力 来改善检索与生成结果。 谷歌多部门 (Google Cloud AI Research、Google DeepMind、Google Cloud AI)联合 加利福尼亚大学圣迭戈分校 提出一个新的框架 Speculative RAG, 它利用 一个更大的 通用语言模型(LM)来高效地验证由一个更小的、经过蒸馏的专家LM并行生成的 多个RAG草稿 。每个草稿( Drafting )都是从检索到的文档的不同子集中生成的,提供了对证据的多样化视角,同时减少了每个草稿的输入标记数。 不同RAG方法的说明 。给定一个知识密集型查询Q和检索到的文档,(a) 标准RAG 将所有文档合并到提示中,增加了输入长度并减慢了推理速度;(b) 自我反思RAG 需要对通用语言模型(LM)进行专门的指令调整,以生成用于自我反思的特定标签;(c) 校正RAG 采用外部检索评
………………………………