Image processing Tesseract OCR，字幕提取的预处理_Image Processing_Ocr

Image processing Tesseract OCR，字幕提取的预处理

image-processing

Image processing Tesseract OCR，字幕提取的预处理,image-processing,ocr,Image Processing,Ocr,我正在尝试使用tesseract对一些灰度视频帧进行OCR。字幕的OCR比文档提取更为复杂，因为文本位于背景框架之上，背景会引入大量噪声，并且可能具有与字幕相似的颜色。字体通常是抗锯齿的，这使得只提取带有阈值的文本变得更加困难，更复杂的是，我正在处理的帧是灰度的，并且已经缩小了比例以下是一个示例：在220处设置阈值后得到的结果：这已经很好了，但正如你所看到的，还有大量的背景，Tesseact无法将其与文本分离有些技术有一些假设，比如在对接触边界的黑色区域设置阈值后移除，假设文本没有，

我正在尝试使用tesseract对一些灰度视频帧进行OCR。字幕的OCR比文档提取更为复杂，因为文本位于背景框架之上，背景会引入大量噪声，并且可能具有与字幕相似的颜色。字体通常是抗锯齿的，这使得只提取带有阈值的文本变得更加困难，更复杂的是，我正在处理的帧是灰度的，并且已经缩小了比例

以下是一个示例：

在220处设置阈值后得到的结果：

这已经很好了，但正如你所看到的，还有大量的背景，Tesseact无法将其与文本分离

有些技术有一些假设，比如在对接触边界的黑色区域设置阈值后移除，假设文本没有，但这是非常具体的，不适用于很多情况

我正在寻找的是一种可以实时应用并将其推广到其他帧的方法。

您在这方面取得了什么进展？我正在尝试解决一个类似的问题。我没有解决它，但我找到了一种方法来提取一个遮罩，平均来说可以提高一点效果。我做了一个形态学的“边缘插入”（就像ImageMagick中的一个），接着是一系列

n=4

腐蚀，然后

膨胀，然后应用OTSU阈值来获得面具。在某些情况下，“边缘输入”转换的结果会提供更好的OCR结果（您甚至可以在结果上应用遮罩来消除一些噪音）。这不是问题的直接答案，因此我将其放在注释中，但指定最小字体大小可能会有所帮助。