Java 如何使用ApacheTika从PDF文档中提取特定数据

Java 如何使用ApacheTika从PDF文档中提取特定数据,java,pdf,apache-tika,Java,Pdf,Apache Tika,我正在尝试使用apachetika™从PDF文档中提取以下信息 作者列表(不仅仅是主要作者) 文件摘要 所有相关文件标识符,如DOI、ISBN、ISSN、PUI等 文件标题和副标题 文档图像 引文表 对于上面的列表,我可以想象它只有“3”。“我需要使用“其他”资源来获取所有文档Id,正如我所看到的,您不能依赖包含所有相关Id的PDF文档本身 对于所有其他内容,必须通过使用Tika内置功能或开发一组自定义处理程序和/或解析器“以某种方式”可用 是否可以使用Apache Tike“开箱即用”来提取所

我正在尝试使用apachetika™从
PDF
文档中提取以下信息

  • 作者列表(不仅仅是主要作者)
  • 文件摘要
  • 所有相关文件标识符,如DOI、ISBN、ISSN、PUI等
  • 文件标题和副标题
  • 文档图像
  • 引文表
  • 对于上面的列表,我可以想象它只有“3”。“我需要使用“其他”资源来获取所有文档Id,正如我所看到的,您不能依赖包含所有相关Id的PDF文档本身

    对于所有其他内容,必须通过使用Tika内置功能或开发一组自定义处理程序和/或解析器“以某种方式”可用


    是否可以使用Apache Tike“开箱即用”来提取所需信息?

    是否尝试使用?这通常是从类似于解决方案的期刊文章中获取基于内容的元数据的最佳方法。非常感谢您花时间回复。我正在与gradle一起构建,我可以在我的gradle构建中获得Grobid吗?可能最好在上询问,然后在找到方法后更新wiki页面+这里的答案!看起来像是在马文中心。所以我很乐意去!你有没有试着用这个?这通常是从类似于解决方案的期刊文章中获取基于内容的元数据的最佳方法。非常感谢您花时间回复。我正在与gradle一起构建,我可以在我的gradle构建中获得Grobid吗?可能最好在上询问,然后在找到方法后更新wiki页面+这里的答案!看起来像是在马文中心。所以我很乐意去!