Image processing OCR处理前的图像预处理_Image Processing_Ocr_Tesseract

Image processing OCR处理前的图像预处理

image-processing

Image processing OCR处理前的图像预处理,image-processing,ocr,tesseract,Image Processing,Ocr,Tesseract,我目前的项目涉及将pdf格式的文本转录成文本文件，我首先尝试将图像文件直接放入OCR程序（tesseract），但效果并不理想。原始图像文件基本上是旧报纸，并且有一些背景噪音，我确信tesseract有问题。因此，在将图像输入tesseract之前，我尝试使用一些图像预处理。对于开源图像预处理引擎有什么建议可以很好地适应这种情况吗？？？关于如何使用它的指导将更加感激我从来没有听说过用于此目的的“图像预处理引擎”，但您可以看看（开源计算机视觉库）并实现自己的“预处理引擎”OpenCV是一个计算

我目前的项目涉及将pdf格式的文本转录成文本文件，我首先尝试将图像文件直接放入OCR程序（tesseract），但效果并不理想。原始图像文件基本上是旧报纸，并且有一些背景噪音，我确信tesseract有问题。因此，在将图像输入tesseract之前，我尝试使用一些图像预处理。对于开源图像预处理引擎有什么建议可以很好地适应这种情况吗？？？关于如何使用它的指导将更加感激

我从来没有听说过用于此目的的“图像预处理引擎”，但您可以看看（开源计算机视觉库）并实现自己的“预处理引擎”OpenCV是一个计算机视觉库，提供了许多执行图像处理的功能

有一件有趣的事情，您可能希望测试作为预处理步骤，即对图像应用阈值，以去除噪声和其他内容。无论如何，我在

中讨论过这类东西，就像@karlphillip提到的，我非常怀疑是否有一个现成的预处理引擎可以满足您的需要，因为预处理技术与期望的结果相差很大

清除噪声图像中文本的一些常用方法包括： 1.自适应阈值（Sauvola或Niblack二值化） 2.应用大小略大于文本的中值滤波器获得背景图像，然后从原始图像中减去背景（以去除较大的噪声，如折痕、污点、手写注释等）

OpenCV实现了这些过滤器/二值化方法。如果你可以访问已发表的文献，那么有很多关于嘈杂文档二值化的工作。

请查看。它具有令人印象深刻的预处理功能，并且是开源的

因此，一旦我学会了如何使用OpenCV，我就可以使用这些实现的方法来过滤文档图像？？看起来我错了。OpenCV没有Suvola或Niblack实现（尽管有一个自适应阈值函数，可能会给出类似的结果）。它确实有大津二值化，如果在整个图像上有一致的照明，这可能对你有用。所以，在回答你的问题时，是的。旋转、书桌和页面分割并没有真正打动我。OCR还有很多工作要做。尤其是将彩色图像转换为真正的黑白图像是重要的一步。Scantailer项目不再维护，因此Scantailer.sourceforge.net和Scantailer.org域不再可用。你仍然可以找到那个。