专栏名称: 宝玉xp
前微软Asp.Net最有价值专家 互联网科技博主 我是宝玉。
今天看啥  ›  专栏  ›  宝玉xp

#开源项目推荐# 高性能的非结构化数据提取工具 Extracto-20241122082034

宝玉xp  · 微博  · AI  · 2024-11-22 08:20

文章预览

2024-11-22 08:20 本条微博链接 #开源项目推荐# 高性能的非结构化数据提取工具 Extractous github.com/yobix-ai/extractous Extractous 是一个用 Rust 语言开发的高性能非结构化数据提取工具,它能够快速高效地从 PDF、Word、HTML 等多种文档格式中提取文本内容和元数据。作为一个开源项目,它具有以下突出特点: - 速度优势:经测试,Extractous 的处理速度比知名的 unstructured-io 库快 25 倍左右 - 内存效率:相比 unstructured-io,Extractous 的内存占用低约 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览