专栏名称: 谈数据
聚焦数据治理,数字化转型,数据中台等领域专业知识总结和实战分享,做你身边最有价值的数据号!
今天看啥  ›  专栏  ›  谈数据

Docs2KG:基于大模型的非结构化异构文档统一知识图谱自动构建!!

谈数据  · 公众号  ·  · 2024-06-30 07:30

文章预览

目前市场上的一些工具专注于检索增强生成 ( RAG ) 流程或如何让大型语言模型 (LLM) 在本地运行。更广泛的社区包括个人用户、小型企业,甚至大型企业。其中一些人可能已经开发了知识库,这些数据都是 非结构化的 ,并且分布在不同的地方。 通过结合PDF文件和Excel文件 ,演示查询“显示所有与2011年和2021年发生的事件相关的文档及其组成部分。” PDF文件包含2011年至2021年香港的人口规模和结构信息。Excel文件包含2021年至2023年的人口普查记录。(青色表示 PDF文档 ;绿色用于 Excel文件 ; 红色为PDF页面 ;卡其色为 标题 ;海洋蓝为 段落 ) 鉴于 非结构化和异构数据 的性质,信息提取和知识表示带来了重大挑战。因此提出了 Docs2KG ,这是一个新颖的框架,旨在从多种异构非结构化数据源(包括电子邮件、网页、PDF文件和Excel文件)中提取多模态信息 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览