Tika在OCR PDF上与Tesseract一起使用时复制文本

Tika在OCR PDF上与Tesseract一起使用时复制文本,pdf,ocr,tesseract,apache-tika,Pdf,Ocr,Tesseract,Apache Tika,我有一个扫描过的PDF,已经过OCR认证,现在有双层扫描图像和上面的文本 如果我使用Tika和集成的Tesseract从PDF中提取文本,我会得到重复的文本:一个来自OCRD文本,另一个来自Tesseract的OCR图像 在这种情况下,我只需要OCR文本 我不能仅仅禁用Tesseract,因为可能存在只包含图像的PDF或包含文本和图像的PDF Tesseract集成在Tika中,就像 有没有办法告诉Tika不要在PDF中使用Tesseract处理上面有OCR文本的图像?我们遇到了类似的问题,我们

我有一个扫描过的PDF,已经过OCR认证,现在有双层扫描图像和上面的文本

如果我使用Tika和集成的Tesseract从PDF中提取文本,我会得到重复的文本:一个来自OCRD文本,另一个来自Tesseract的OCR图像

在这种情况下,我只需要OCR文本

我不能仅仅禁用Tesseract,因为可能存在只包含图像的PDF或包含文本和图像的PDF

Tesseract集成在Tika中,就像


有没有办法告诉Tika不要在PDF中使用Tesseract处理上面有OCR文本的图像?

我们遇到了类似的问题,我们试图保持一个简单的if-else条件,将PDF传递给默认的PDF扫描仪,如果它变为空,则我们在pdf上使用tesseract选项调用。

我必须使用可以同时包含文本和图像的pdf,因此不幸的是,这种方法对我不起作用。很抱歉,如果它看起来像广告,但您可以使用Ambar来避免Tika的OCR出现问题。我们尽了很大的努力使它顺利进行。