Java 检测是否使用OCR[pdfbox]从扫描文档创建PDF

Java 检测是否使用OCR[pdfbox]从扫描文档创建PDF,java,pdf,ocr,pdfbox,Java,Pdf,Ocr,Pdfbox,我想知道是否使用OCR从扫描文档创建PDF 为了使扫描文档中的文本可选择,我猜相同的文本是使用透明颜色、特殊字体 我使用的是pdfbox,我查看了字体、颜色和许多其他属性,没有发现任何特殊的内容。在大多数情况下,原始图像仍然存在,OCRd文本在下面是不可见的 因此,一种可能是找出是否有一张图片覆盖了所有的文字区域 另一种可能是查看字体并根据它们做出一些明智的决定在我的例子中,文本呈现模式设置为“既不填充也不笔划文本” pdfbox代码: getGraphicsState().getTextSta

我想知道是否使用OCR从扫描文档创建PDF

为了使扫描文档中的文本可选择,我猜相同的文本是使用透明颜色、特殊字体


我使用的是pdfbox,我查看了字体、颜色和许多其他属性,没有发现任何特殊的内容。

在大多数情况下,原始图像仍然存在,OCRd文本在下面是不可见的

因此,一种可能是找出是否有一张图片覆盖了所有的文字区域


另一种可能是查看字体并根据它们做出一些明智的决定

在我的例子中,文本呈现模式设置为“既不填充也不笔划文本”

pdfbox代码:

getGraphicsState().getTextState().getRenderingMode() == PDTextState.RENDERING_MODE_NEITHER_FILL_NOR_STROKE_TEXT

这取决于OCR数据的实际嵌入情况。人们经常看到使用“不可见”的呈现模式,或者简单地使用先绘制文本,然后显示覆盖文字的图像的方法。你不应该将分辨率添加到问题文本中,而应该将其作为答案。我将其更改为答案。你能提供所有示例代码吗,其中PDF包含多页?提前感谢!:)