专栏名称: 魔搭ModelScope社区
阿里巴巴达摩院模型开源社区ModelScope官方账号
今天看啥  ›  专栏  ›  魔搭ModelScope社区

MinerU-大语言语料处理神器,CPU/GPU均可跑,开源免费“敲”好用

魔搭ModelScope社区  · 公众号  ·  · 2024-09-03 12:14
    

文章预览

01 引言 在7月4日举行的WAIC 2024科学前沿主论坛上,书生·浦语2.5正式发布,面向大模型研发与应用的 全链条工具体系同时迎来升级。在数据处理环节, 上海人工智能实验室(上海AI实验室)大模型数据基座OpenDataLab团队开源了全新的智能数据提取工具——MinerU 。 在这个信息爆炸的时代,AI研究者常常面临着从海量文档中提取高质量数据的挑战。无论是学术文献、行业报告、会议PPT、课本、说明书还是合同单据,这些文档往往以PDF或网页的形式存在,内容复杂,格式多样,而大语言模型的训练,通常需要将这些内容转换为类似markdown的格式才能使用,核心问题集中在两个方面:通过分析布局信息(包括文本、标题、说明、图片、表格和公式),识别不同的元素并处理这些布局组件之间的关系。 MinerU,作为一款全能、开源的文档与网页数据提取工具, ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览