Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/image-processing/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/jpa/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Image processing OCR处理前的图像预处理_Image Processing_Ocr_Tesseract - Fatal编程技术网

Image processing OCR处理前的图像预处理

Image processing OCR处理前的图像预处理,image-processing,ocr,tesseract,Image Processing,Ocr,Tesseract,我目前的项目涉及将pdf格式的文本转录成文本文件,我首先尝试将图像文件直接放入OCR程序(tesseract),但效果并不理想。 原始图像文件基本上是旧报纸,并且有一些背景噪音,我确信tesseract有问题。因此,在将图像输入tesseract之前,我尝试使用一些图像预处理。对于开源图像预处理引擎有什么建议可以很好地适应这种情况吗???关于如何使用它的指导将更加感激 我从来没有听说过用于此目的的“图像预处理引擎”,但您可以看看(开源计算机视觉库)并实现自己的“预处理引擎”OpenCV是一个计算

我目前的项目涉及将pdf格式的文本转录成文本文件,我首先尝试将图像文件直接放入OCR程序(tesseract),但效果并不理想。 原始图像文件基本上是旧报纸,并且有一些背景噪音,我确信tesseract有问题。因此,在将图像输入tesseract之前,我尝试使用一些图像预处理。对于开源图像预处理引擎有什么建议可以很好地适应这种情况吗???关于如何使用它的指导将更加感激

我从来没有听说过用于此目的的“图像预处理引擎”,但您可以看看(开源计算机视觉库)并实现自己的“预处理引擎”OpenCV是一个计算机视觉库,提供了许多执行图像处理的功能


有一件有趣的事情,您可能希望测试作为预处理步骤,即对图像应用阈值,以去除噪声和其他内容。无论如何,我在

中讨论过这类东西,就像@karlphillip提到的,我非常怀疑是否有一个现成的预处理引擎可以满足您的需要,因为预处理技术与期望的结果相差很大

清除噪声图像中文本的一些常用方法包括: 1.自适应阈值(Sauvola或Niblack二值化) 2.应用大小略大于文本的中值滤波器获得背景图像,然后从原始图像中减去背景(以去除较大的噪声,如折痕、污点、手写注释等)


OpenCV实现了这些过滤器/二值化方法。如果你可以访问已发表的文献,那么有很多关于嘈杂文档二值化的工作。

请查看。它具有令人印象深刻的预处理功能,并且是开源的

因此,一旦我学会了如何使用OpenCV,我就可以使用这些实现的方法来过滤文档图像??看起来我错了。OpenCV没有Suvola或Niblack实现(尽管有一个自适应阈值函数,可能会给出类似的结果)。它确实有大津二值化,如果在整个图像上有一致的照明,这可能对你有用。所以,在回答你的问题时,是的。旋转、书桌和页面分割并没有真正打动我。OCR还有很多工作要做。尤其是将彩色图像转换为真正的黑白图像是重要的一步。Scantailer项目不再维护,因此Scantailer.sourceforge.net和Scantailer.org域不再可用。你仍然可以找到那个。