Java 8 文本剥离器停止并等待

Java 8 文本剥离器停止并等待,java-8,lucene,pdfbox,Java 8,Lucene,Pdfbox,我试图从pdf文件中提取文本,以便用Lucene对其进行索引。代码如下: PDFParser parser = new PDFParser(new FileInputStream(f)); parser.parse(); String text = new PDFTextStripper().getText(parser.getPDDocument()); // stops here parser.getPDDocument().close(); 执行将在注释中指示的行无限期地开始等待。我

我试图从pdf文件中提取文本,以便用Lucene对其进行索引。代码如下:

PDFParser parser = new PDFParser(new FileInputStream(f));
parser.parse();
String text = new PDFTextStripper().getText(parser.getPDDocument());   // stops here
parser.getPDDocument().close();
执行将在注释中指示的行无限期地开始等待。我确信上一行已经被执行了

我使用的是pdfbox版本1.8


有人能帮我吗?

首先,我用的是2.0.17版而不是1.8版的PdfBox

获取pdf文件中文本的正确代码如下:

PDDocument doc = PDDocument.load(file);
PDFTextStripper stripper = new PDFTextStripper();
String content = stripper.getText(doc);

这管用

请使用当前版本2.0.17。我已尝试使用这两个版本。结果是一样的。那么请共享该文件以供检查。我已经尝试了几个文件。什么都没变…:-如果您尝试使用pdfbox应用程序的ExtractText功能,会发生什么情况?从下载页面下载,然后运行java-jar pdfbox-appXXXX.jar ExtractText yourfile.pdf,txt文件应该出现在同一个目录中,我想知道是否会有什么效果。顺便说一句,要打开的正确代码是PDDocument.load或1.8 PDDocument.loadNonSeq。