从PDF中提取标签

从PDF中提取标签,pdf,tags,Pdf,Tags,有人能推荐一个库(Linux二进制、jar或源代码)来从标记的PDF文件中提取标记树吗?我试过PDFMiner,但它在我试过的第一个文件上崩溃了你试过iText吗?查看一个项目示例,该项目使用iText直观地显示此树。但是,您将无法使用此方法将树节点与其当前对应的页面内容链接。是否尝试使用iText?查看一个项目示例,该项目使用iText直观地显示此树。您将无法使用此方法将树节点与其当前对应的页面内容链接。看起来很有希望,但在我找到的第一个带标签的PDF(www.adobe.com/enterp

有人能推荐一个库(Linux二进制、jar或源代码)来从标记的PDF文件中提取标记树吗?我试过PDFMiner,但它在我试过的第一个文件上崩溃了

你试过iText吗?查看一个项目示例,该项目使用iText直观地显示此树。但是,您将无法使用此方法将树节点与其当前对应的页面内容链接。

是否尝试使用iText?查看一个项目示例,该项目使用iText直观地显示此树。您将无法使用此方法将树节点与其当前对应的页面内容链接。

看起来很有希望,但在我找到的第一个带标签的PDF(www.adobe.com/enterprise/accessibility/pdfs/acro6_pg_ue.PDF)上崩溃,该PDF是webstart版本,独立jar看起来很有希望,但是在我找到的第一个带标签的PDF(www.adobe.com/enterprise/accessibility/pdfs/acro6_pg_ue.PDF)上崩溃了,这是webstart版本,独立jar看起来不错