文章预览
0 1 论文简介 论文题目:《A Method for Parsing and Vectorization of Semi-structured Data used in Retrieval Augmented Generation》 论文链接:https://arxiv.org/abs/2405.03989 代码:
https://github.com/linancn/TianGong-AI-Unstructure/tree/main 这篇论文提出了一种新方法,用于解析和向量化半结构化数据,以增强大型语言模型(LLMs)中的检索增强生成(RAG)功能。但是读下来感觉并不是很“新”,基本是常见文本解析的流程,不过通过论文效果图看起来不同文件解析效果还可以,并且公开了源码,大家可以借鉴下。 0 2 论文方案 这篇论文通过以下步骤解决提高大型语言模型(LLMs)在特定领域性能的问题: 数据准备 :首先,将多种来源的数据(包括书籍、报告、学术文章和数据表)编译成 .docx 格式。 .docx 格式因其标准化、高质量的文本、易于编辑、广泛的兼容性和丰富的元数据内容而被选为
………………………………