专栏名称: AINLP
关注AI、NLP相关技术,关注算法研发职位和课程;回复"文章"获取历史信息;双语聊天机器人"无名";中英翻译请输入:翻译 翻译内容;自动对联,请输入:上联 上联内容;调戏夸夸聊天机器人,请求夸、求赞;查询相似词,请输入: 相似词 词条
目录
相关文章推荐
厦门日报  ·  厦门,粉了! ·  3 天前  
今天看啥  ›  专栏  ›  AINLP

【RAG论文】RAG中半结构化数据的解析和向量化方法

AINLP  · 公众号  ·  · 2024-05-28 10:10
    

文章预览

0 1 论文简介 论文题目:《A Method for Parsing and Vectorization of Semi-structured Data used in Retrieval Augmented Generation》 论文链接:https://arxiv.org/abs/2405.03989 代码: https://github.com/linancn/TianGong-AI-Unstructure/tree/main 这篇论文提出了一种新方法,用于解析和向量化半结构化数据,以增强大型语言模型(LLMs)中的检索增强生成(RAG)功能。但是读下来感觉并不是很“新”,基本是常见文本解析的流程,不过通过论文效果图看起来不同文件解析效果还可以,并且公开了源码,大家可以借鉴下。 0 2 论文方案 这篇论文通过以下步骤解决提高大型语言模型(LLMs)在特定领域性能的问题: 数据准备 :首先,将多种来源的数据(包括书籍、报告、学术文章和数据表)编译成 .docx 格式。 .docx 格式因其标准化、高质量的文本、易于编辑、广泛的兼容性和丰富的元数据内容而被选为 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览