文章预览
01 引言 在7月4日举行的WAIC 2024科学前沿主论坛上,书生·浦语2.5正式发布,面向大模型研发与应用的 全链条工具体系同时迎来升级。在数据处理环节, 上海人工智能实验室(上海AI实验室)大模型数据基座OpenDataLab团队开源了全新的智能数据提取工具——MinerU 。 在这个信息爆炸的时代,AI研究者常常面临着从海量文档中提取高质量数据的挑战。无论是学术文献、行业报告、会议PPT、课本、说明书还是合同单据,这些文档往往以PDF或网页的形式存在,内容复杂,格式多样,而大语言模型的训练,通常需要将这些内容转换为类似markdown的格式才能使用,核心问题集中在两个方面:通过分析布局信息(包括文本、标题、说明、图片、表格和公式),识别不同的元素并处理这些布局组件之间的关系。 MinerU,作为一款全能、开源的文档与网页数据提取工具,
………………………………