今天看啥  ›  专栏  ›  InfoQ

Nvidia Ingest 让从文档中提取结构化信息更简单

InfoQ  · 公众号  · 科技媒体  · 2025-02-14 15:57
    

文章预览

作者 | Sergio De Simone 译者 | 平川 策划 | Tina Nvidia Ingest 是一种新的微服务,旨在处理文档内容并将元数据提取到明确定义的 JSON 模式中。Ingest 能够处理 PDF、Word 和 PowerPoint 文档,并使用光学字符识别技术从表格、图表、图像和文本中提取结构化信息。 要使用 Nvidia Ingest,需要向其提供需要摄取的有效载荷的 JSON 作业描述。然后,你就可以以 JSON 字典的形式检索结果,其中包含提取到的所有对象的元数据、处理注解和时间 / 跟踪信息。 Nvidia 没有提供有关 Ingest 性能的数据,但表示它具有可扩展性,可以使用多种处理方法来提高准确性或增加吞吐量。对于 PDF 文档,Ingest 可以使用 pdfium、Unstructured.io 或 Adobe  的内容提取服务。 例如,借助 nv-ingest-cli (用于与 Nvidia Ingest 交互的命令行工具),你可以使用 --task 参数指定如何处理文档,其中包括一 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览