Java 从PDF中提取文本：PDFLib vs PDF extract vs pdf2xml_Java_Php_Pdf_Text Extraction

Java 从PDF中提取文本：PDFLib vs PDF extract vs pdf2xml

java php pdf

Java 从PDF中提取文本：PDFLib vs PDF extract vs pdf2xml,java,php,pdf,text-extraction,Java,Php,Pdf,Text Extraction,我正在寻找一个库（如果可能的话，可以用Java或PHP），以便从PDF中提取文本。有很多可用的软件，包括：三高™ PDF摘录 PDFlib TET–文本提取工具包 PDF2XML 您会选择哪些工具？你觉得他们怎么样非常感谢你的帮助我最喜欢的是iText（java），但从PDF中提取文本可能会有很多困难，因为PDF中的文本并不总是按显示顺序存储。iText无法正确地从irs i1040.PDF中提取文本据报道: article.gmane.org/gmane.comp.java.lib

我正在寻找一个库（如果可能的话，可以用Java或PHP），以便从PDF中提取文本。有很多可用的软件，包括：

三高™ PDF摘录
PDFlib TET–文本提取工具包
PDF2XML

您会选择哪些工具？你觉得他们怎么样

非常感谢你的帮助

我最喜欢的是iText（java），但从PDF中提取文本可能会有很多困难，因为PDF中的文本并不总是按显示顺序存储。

iText无法正确地从irs i1040.PDF中提取文本据报道:

article.gmane.org/gmane.comp.java.lib.itext.general/65680

据我所知，当嵌入字体时，提取正确的文本并不总是可能的。见： www.verypdf.com/wordpress/201109/pdf-to-text-converter-cant-extract-text-which-render-by-embedded-fonts-2452.html 第9.10.1节： www.adobe.com/content/dam/adobe/en/devnet/pdf/pdfs/pdf3200_2008.pdf

说：

如果字体未按以下方式之一定义。。。人物如果没有其他信息，则无法转换为Unicode值

我假设“转换为unicode值”对于文本提取至关重要