Java 从PDF中提取文本:PDFLib vs PDF extract vs pdf2xml

Java 从PDF中提取文本:PDFLib vs PDF extract vs pdf2xml,java,php,pdf,text-extraction,Java,Php,Pdf,Text Extraction,我正在寻找一个库(如果可能的话,可以用Java或PHP),以便从PDF中提取文本。有很多可用的软件,包括: 三高™ PDF摘录 PDFlib TET–文本提取工具包 PDF2XML 您会选择哪些工具?你觉得他们怎么样 非常感谢你的帮助 我最喜欢的是iText(java),但从PDF中提取文本可能会有很多困难,因为PDF中的文本并不总是按显示顺序存储。iText无法正确地从irs i1040.PDF中提取文本 据报道: article.gmane.org/gmane.comp.java.lib

我正在寻找一个库(如果可能的话,可以用Java或PHP),以便从PDF中提取文本。有很多可用的软件,包括:

  • 三高™ PDF摘录

  • PDFlib TET–文本提取工具包

  • PDF2XML

您会选择哪些工具?你觉得他们怎么样


非常感谢你的帮助

我最喜欢的是iText(java),但从PDF中提取文本可能会有很多困难,因为PDF中的文本并不总是按显示顺序存储。

iText无法正确地从irs i1040.PDF中提取文本 据报道:

article.gmane.org/gmane.comp.java.lib.itext.general/65680

据我所知,当嵌入字体时, 提取正确的文本并不总是可能的。 见: www.verypdf.com/wordpress/201109/pdf-to-text-converter-cant-extract-text-which-render-by-embedded-fonts-2452.html 第9.10.1节: www.adobe.com/content/dam/adobe/en/devnet/pdf/pdfs/pdf3200_2008.pdf

说:

如果字体未按以下方式之一定义。。。人物 如果没有其他信息,则无法转换为Unicode值

我假设“转换为unicode值”对于文本提取至关重要