Image 为什么tesseract只能正确读取2个图像中的1个?

Image 为什么tesseract只能正确读取2个图像中的1个?,image,image-processing,Image,Image Processing,这是我第一次使用tesseract,我正在尝试读取这些tiff图像中包含的数字: 正如您所见,它们的格式相同,宽度/高度也相同。我不知道为什么tesseract只返回第二个图像(“150”)的正确输出,而第一个图像返回空白输出 也许我应该修改它们以最适合tesseract?怎么用?如果需要,我可以使用Imagemagick 提前感谢。在自述中,他们说: 在可执行文件中,默认情况下启用页面布局分析。您可能需要关闭它来处理小图像。还没有用于此的命令行控件。很抱歉请参阅tesseractmain.c

这是我第一次使用tesseract,我正在尝试读取这些tiff图像中包含的数字:

正如您所见,它们的格式相同,宽度/高度也相同。我不知道为什么tesseract只返回第二个图像(“150”)的正确输出,而第一个图像返回空白输出

也许我应该修改它们以最适合tesseract?怎么用?如果需要,我可以使用Imagemagick

提前感谢。

在自述中,他们说: 在可执行文件中,默认情况下启用页面布局分析。您可能需要关闭它来处理小图像。还没有用于此的命令行控件。很抱歉请参阅tesseractmain.cpp


我认为您的图像太小,请尝试编辑代码(并重新编译)。

您使用了哪些选项和语言?我没有得到两个图像的预期结果。您必须使用
tesseract a.tif输出nobatch数字
您不是在使用像
-l ita
这样的语言文件吗?但是为什么一个图像被处理而另一个图像不被处理?也许“150”比“75”大,所以后者被认为是噪音。我会尽量把它们放大!Tesseract需要字符“x高度”至少为10像素,最好为20像素(请参阅)。这些数字的高度约为10像素,因此它们的x大小可能为6-它们可以很容易地作为噪波删除。您应该将它们调整2到4倍,以获得良好的结果,因为它们很容易进行ocr。