Tika在OCR PDF上与Tesseract一起使用时复制文本_Pdf_Ocr_Tesseract_Apache Tika

Tika在OCR PDF上与Tesseract一起使用时复制文本

pdf

Tika在OCR PDF上与Tesseract一起使用时复制文本,pdf,ocr,tesseract,apache-tika,Pdf,Ocr,Tesseract,Apache Tika,我有一个扫描过的PDF，已经过OCR认证，现在有双层扫描图像和上面的文本如果我使用Tika和集成的Tesseract从PDF中提取文本，我会得到重复的文本：一个来自OCRD文本，另一个来自Tesseract的OCR图像在这种情况下，我只需要OCR文本我不能仅仅禁用Tesseract，因为可能存在只包含图像的PDF或包含文本和图像的PDF Tesseract集成在Tika中，就像有没有办法告诉Tika不要在PDF中使用Tesseract处理上面有OCR文本的图像？我们遇到了类似的问题，我们

我有一个扫描过的PDF，已经过OCR认证，现在有双层扫描图像和上面的文本

如果我使用Tika和集成的Tesseract从PDF中提取文本，我会得到重复的文本：一个来自OCRD文本，另一个来自Tesseract的OCR图像

在这种情况下，我只需要OCR文本

我不能仅仅禁用Tesseract，因为可能存在只包含图像的PDF或包含文本和图像的PDF

Tesseract集成在Tika中，就像

有没有办法告诉Tika不要在PDF中使用Tesseract处理上面有OCR文本的图像？

我们遇到了类似的问题，我们试图保持一个简单的if-else条件，将PDF传递给默认的PDF扫描仪，如果它变为空，则我们在pdf上使用tesseract选项调用。

我必须使用可以同时包含文本和图像的pdf，因此不幸的是，这种方法对我不起作用。很抱歉，如果它看起来像广告，但您可以使用Ambar来避免Tika的OCR出现问题。我们尽了很大的努力使它顺利进行。