Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/jsf-2/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Java 使用pdfbox,为什么可以提取文本而不能提取图像_Java_Pdf_Pdfbox - Fatal编程技术网

Java 使用pdfbox,为什么可以提取文本而不能提取图像

Java 使用pdfbox,为什么可以提取文本而不能提取图像,java,pdf,pdfbox,Java,Pdf,Pdfbox,我使用pdfbox从中提取图像和文本。我有以下用于提取文本的代码: PDFTextStripper p = new PDFTextStripper(); String thistext=p.getText(document); 正确地提取文本。但是,当我尝试使用ExtractImages类从同一个pdf中提取图像时,生成的图像是pdf的所有页面,而不是实际的图像。这是因为pdf可能是扫描副本吗?如果这是真的,那么如何提取文本 我相信扫描的事实是你的问题。虽然我见过扫描的PDF检测文本(并使

我使用pdfbox从中提取图像和文本。我有以下用于提取文本的代码:

 PDFTextStripper p = new PDFTextStripper();
 String thistext=p.getText(document);

正确地提取文本。但是,当我尝试使用
ExtractImages
类从同一个pdf中提取图像时,生成的图像是pdf的所有页面,而不是实际的图像。这是因为pdf可能是扫描副本吗?如果这是真的,那么如何提取文本

我相信扫描的事实是你的问题。虽然我见过扫描的PDF检测文本(并使其高亮显示),但它仍然是一幅图像。为了验证这一假设,我会尝试使用一个已知良好的PDF,例如。

谢谢您的及时回复。是的,我已经用其他PDF进行了测试。我对扫描文档中的文本识别感到困惑。