Java 8 文本剥离器停止并等待_Java 8_Lucene_Pdfbox

Java 8 文本剥离器停止并等待

java-8 lucene

Java 8 文本剥离器停止并等待,java-8,lucene,pdfbox,Java 8,Lucene,Pdfbox,我试图从pdf文件中提取文本，以便用Lucene对其进行索引。代码如下： PDFParser parser = new PDFParser(new FileInputStream(f)); parser.parse(); String text = new PDFTextStripper().getText(parser.getPDDocument()); // stops here parser.getPDDocument().close(); 执行将在注释中指示的行无限期地开始等待。我

我试图从pdf文件中提取文本，以便用Lucene对其进行索引。代码如下：

PDFParser parser = new PDFParser(new FileInputStream(f));
parser.parse();
String text = new PDFTextStripper().getText(parser.getPDDocument());   // stops here
parser.getPDDocument().close();

执行将在注释中指示的行无限期地开始等待。我确信上一行已经被执行了

我使用的是pdfbox版本1.8

有人能帮我吗？

首先，我用的是2.0.17版而不是1.8版的PdfBox

获取pdf文件中文本的正确代码如下：

PDDocument doc = PDDocument.load(file);
PDFTextStripper stripper = new PDFTextStripper();
String content = stripper.getText(doc);

这管用

请使用当前版本2.0.17。我已尝试使用这两个版本。结果是一样的。那么请共享该文件以供检查。我已经尝试了几个文件。什么都没变…：-如果您尝试使用pdfbox应用程序的ExtractText功能，会发生什么情况？从下载页面下载，然后运行java-jar pdfbox-appXXXX.jar ExtractText yourfile.pdf，txt文件应该出现在同一个目录中，我想知道是否会有什么效果。顺便说一句，要打开的正确代码是PDDocument.load或1.8 PDDocument.loadNonSeq。