文章预览
TransRAG:Knowledge Transfer Empowered RAG 1.赛题分析 本届挑战赛首次采用大模型检索增强(RAG)技术,基于5G领域运维技术文档,探索如何结合领域私有技术文档进行高效私域知识问答。揭示在通用大语言模型基座下,垂直领域知识问答面临的领域知识缺失,公私域知识冲突,多模态图表并存等一系列挑战。 分析赛题,本方案依次从数据预处理、知识库索引构建、信息检索与重排、领域知识注入以及大模型交互与生成五个方面挑战分别提出创新性措施: 挑战1 :运维语料(html页面数据)数据体量大,数据类别差异大,含大量图表信息。 措施:1)markdown格式转换;2)表格增强,内容结构分离。 挑战2 :语料信息逻辑链条联系紧密,文本切割与知识库构建难度大。 措施:采用“基本快-子块”的分层文本块(chunk)分割方式;文本块内容加入页面逻辑信息,
………………………………