专栏名称: PaperAgent
日更,解读AI前沿技术热点Paper
今天看啥  ›  专栏  ›  PaperAgent

一个RAG嵌入模型微调数据构建pipeline

PaperAgent  · 公众号  ·  · 2024-06-06 16:52
    

文章预览

创建用于微调自定义嵌入模型的合成数据生成pipeline 创建知识库 :首先准备您的特定领域知识库,例如包含信息的PDF或其他文档。将这些文档的内容转换为纯文本格式。 数据分块 :将您的文本数据划分为大约每个256个token的可管理chunk(RAG后续使用的块大小)。 使用LLM生成问题 :使用语言模型(LLM)为每个文本块生成K个问题。这些问题应该能够根据块内的内容得到回答。示例提示:"生成五个可以利用以下文本回答的问题:[插入chunk内容]。" 可选生成困难的负例 :通过生成与正确问题相似但答案错误或误导的问题来创建困难的负例。或者,在训练期间使用批量中的其他随机样本作为负例(批内负例)。 去重和过滤对 :删除“重复”的问题-上下文对以确保独特性。使用LLM通过定义自定义的质量评估标准来评判和过滤掉质量较低的对。 微调嵌入模 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览