专栏名称: Coggle数据科学
Coggle全称Communication For Kaggle,专注数据科学领域竞赛相关资讯分享。
今天看啥  ›  专栏  ›  Coggle数据科学

小白学RAG:从零开始的RAG最佳实践

Coggle数据科学  · 公众号  ·  · 2024-06-24 09:00

文章预览

检索增强生成 (Retrieval Augmented Generation,简称RAG) 已成为一种流行的范式,它使大型语言模型(LLMs)能够访问外部数据,并作为一种机制来减轻幻觉现象。 实现RAG时,可能会面临有效集成检索模型、高效表示学习、数据多样性、计算效率优化、评估和文本生成质量等挑战。鉴于这些挑战,每天都会出现新的技术来改进RAG,使得为特定问题尝试所有组合变得不可行。 在这种情况下,本文提出了实现、优化和评估RAG的最佳实践,特别是针对巴西葡萄牙语,重点在于建立一个简单的推理和实验流程。 https://arxiv.org/pdf/2401.07883 步骤1:数据集准备 作者们选择了巴西葡萄牙语版本的《哈利·波特》第一本书作为数据集。选择这本书的原因是它广为人知,并且 Gemini Pro 和 OpenAI 模型都能够回答有关这本书的一般性问题。 数据集大小:使用标准的 ChatGPT 分词器 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览