Java 使用pdfbox，为什么可以提取文本而不能提取图像_Java_Pdf_Pdfbox

Java 使用pdfbox，为什么可以提取文本而不能提取图像

java pdf

Java 使用pdfbox，为什么可以提取文本而不能提取图像,java,pdf,pdfbox,Java,Pdf,Pdfbox,我使用pdfbox从中提取图像和文本。我有以下用于提取文本的代码： PDFTextStripper p = new PDFTextStripper(); String thistext=p.getText(document); 正确地提取文本。但是，当我尝试使用ExtractImages类从同一个pdf中提取图像时，生成的图像是pdf的所有页面，而不是实际的图像。这是因为pdf可能是扫描副本吗？如果这是真的，那么如何提取文本我相信扫描的事实是你的问题。虽然我见过扫描的PDF检测文本（并使

我使用pdfbox从中提取图像和文本。我有以下用于提取文本的代码：

 PDFTextStripper p = new PDFTextStripper();
 String thistext=p.getText(document);

正确地提取文本。但是，当我尝试使用

ExtractImages

类从同一个pdf中提取图像时，生成的图像是pdf的所有页面，而不是实际的图像。这是因为pdf可能是扫描副本吗？如果这是真的，那么如何提取文本

我相信扫描的事实是你的问题。虽然我见过扫描的PDF检测文本（并使其高亮显示），但它仍然是一幅图像。为了验证这一假设，我会尝试使用一个已知良好的PDF，例如。

谢谢您的及时回复。是的，我已经用其他PDF进行了测试。我对扫描文档中的文本识别感到困惑。