文章预览
作者:不可食用盐 链接:https://juejin.cn/post/7252159509848899640 Apache tika是Apache开源的一个文档解析工具。Apache Tika可以解析和提取一千多种不同的文件类型(如PPT、XLS和PDF)的内容和格式,并且Apache Tika提供了多种使用方式,既可以使用图形化操作页面(tika-app),又可以独立部署(tika-server)通过接口调用,还可以引入到项目中使用。 本文演示在spring boot 中引入 tika 的方式解析文档。如下: 引入依赖 在spring boot 项目中引入如下依赖: < dependencyManagement > < dependencies > < dependency > < groupId > org.apache.tika groupId > < artifactId > tika-bom artifactId > < version > 2.8.0 version > < type > pom type > < scope > import scope > dependency > dependencies > dependencyManagement > < dependency > < groupId > org.apache.tika groupId > < artifactId > tika-core artifac
………………………………