Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/heroku/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
在ApacheTika OCR中从PDF定制图像预处理是否有最佳实践?_Pdf_Ocr_Apache Tika - Fatal编程技术网

在ApacheTika OCR中从PDF定制图像预处理是否有最佳实践?

在ApacheTika OCR中从PDF定制图像预处理是否有最佳实践?,pdf,ocr,apache-tika,Pdf,Ocr,Apache Tika,将内部带有扫描/拍摄图像的pdf文件传送到Apache Tika时,处理器将提取图像(如果配置正确)并将其交给tesseract。这对于OCR形状合适的图像(来自纸质扫描仪)非常有效,但对于来自手机摄像头的图像(例如:。 有没有办法让Tika在将每个图像页面发送到tesseract之前为其调用自己的图像预处理器?向Apache Tika注册自己的解析器,以获得适当的图像类型,进行检查并在适当时委托给tesseract?@Gagravarr这是一个合理的解决方案。由于Tika已经有了一个很好的解析

将内部带有扫描/拍摄图像的pdf文件传送到Apache Tika时,处理器将提取图像(如果配置正确)并将其交给tesseract。这对于OCR形状合适的图像(来自纸质扫描仪)非常有效,但对于来自手机摄像头的图像(例如:。
有没有办法让Tika在将每个图像页面发送到tesseract之前为其调用自己的图像预处理器?

向Apache Tika注册自己的
解析器
,以获得适当的图像类型,进行检查并在适当时委托给tesseract?@Gagravarr这是一个合理的解决方案。由于Tika已经有了一个很好的解析器来完成这一切(提取图像,配置tesseract,调用它),我希望有一种方法可以连接到我自己的图像处理中,例如使用模板方法模式或类似的东西。我想最好的方法可能是用自己的代码包装Tika解析器,注册解析器,我发现(在代码中:)TesseractOCRParser.java已经在processImage中使用ImageMagick对OCR进行了图像预处理。我们尝试了ImageMagick,但使用OpenCV(在使用Tika之前)效果更好,但我们将重新评估我们的发现,并检查ImageMagick是否能很好地完成这项工作。但是,您认为在那个时候将OpenCV作为替代方案是可行的吗?(我已经看到,在另一个上下文中,TIKA-2322也与此有关联。)