在ApacheTika OCR中从PDF定制图像预处理是否有最佳实践？_Pdf_Ocr_Apache Tika

在ApacheTika OCR中从PDF定制图像预处理是否有最佳实践？

pdf

在ApacheTika OCR中从PDF定制图像预处理是否有最佳实践？,pdf,ocr,apache-tika,Pdf,Ocr,Apache Tika,将内部带有扫描/拍摄图像的pdf文件传送到Apache Tika时，处理器将提取图像（如果配置正确）并将其交给tesseract。这对于OCR形状合适的图像（来自纸质扫描仪）非常有效，但对于来自手机摄像头的图像（例如：。有没有办法让Tika在将每个图像页面发送到tesseract之前为其调用自己的图像预处理器？向Apache Tika注册自己的解析器，以获得适当的图像类型，进行检查并在适当时委托给tesseract？@Gagravarr这是一个合理的解决方案。由于Tika已经有了一个很好的解析

将内部带有扫描/拍摄图像的pdf文件传送到Apache Tika时，处理器将提取图像（如果配置正确）并将其交给tesseract。这对于OCR形状合适的图像（来自纸质扫描仪）非常有效，但对于来自手机摄像头的图像（例如：。

有没有办法让Tika在将每个图像页面发送到tesseract之前为其调用自己的图像预处理器？

向Apache Tika注册自己的

解析器

，以获得适当的图像类型，进行检查并在适当时委托给tesseract？@Gagravarr这是一个合理的解决方案。由于Tika已经有了一个很好的解析器来完成这一切（提取图像，配置tesseract，调用它），我希望有一种方法可以连接到我自己的图像处理中，例如使用模板方法模式或类似的东西。我想最好的方法可能是用自己的代码包装Tika解析器，注册解析器，我发现（在代码中：）TesseractOCRParser.java已经在processImage中使用ImageMagick对OCR进行了图像预处理。我们尝试了ImageMagick，但使用OpenCV（在使用Tika之前）效果更好，但我们将重新评估我们的发现，并检查ImageMagick是否能很好地完成这项工作。但是，您认为在那个时候将OpenCV作为替代方案是可行的吗？（我已经看到，在另一个上下文中，TIKA-2322也与此有关联。）