Imagemagick 在使用tesseract OCR提取文本之前,预处理收据图像以识别收据图像中的文本区域

Imagemagick 在使用tesseract OCR提取文本之前,预处理收据图像以识别收据图像中的文本区域,imagemagick,ocr,tesseract,text-recognition,Imagemagick,Ocr,Tesseract,Text Recognition,我正在使用ImageMagick对收据图像进行预处理,然后再使用tesseract OCR引擎提取文本。我已经使用 convert input.png -colorspace gray \ \( +clone -blur 0x2 \) +swap -compose divide -composite \ -linear-stretch 5%x0% photocopy.png 现在,我需要用文本裁剪出这个区域。 ImageMagick具有遮罩功能,可以从图像中删除边框,但在我的例子中

我正在使用ImageMagick对收据图像进行预处理,然后再使用tesseract OCR引擎提取文本。我已经使用

convert input.png -colorspace gray \
  \( +clone -blur 0x2 \) +swap -compose divide -composite \
  -linear-stretch 5%x0%   photocopy.png
现在,我需要用文本裁剪出这个区域。 ImageMagick具有遮罩功能,可以从图像中删除边框,但在我的例子中,由于接收图像的背景不一致,创建遮罩似乎不起作用


我已经通过SWT“
笔划宽度转换”
“识别自然图像中的文本”,这可以通过imagemagick(可能是其他方便的开发人员图像处理工具)来识别文本,从而可以省略边框吗?提前感谢。

如果没有示例图像,您将无法获得任何相关响应。