Computer vision 进行OCR识别卡车/汽车或其他车辆上的文字

Computer vision 进行OCR识别卡车/汽车或其他车辆上的文字,computer-vision,ocr,tesseract,python-tesseract,Computer Vision,Ocr,Tesseract,Python Tesseract,我对计算机视觉的世界还不熟悉 我试图使用Tesseract检测写在卡车侧面的数字 因此,对于这个例子,我希望看到CMA CGM作为输出 我通过命令行将此图像馈送给Tesseract tesseract image.JPG out -psm 6 但它产生了一个空白文件 然后,我阅读了Tesserocr(Tesseract的python包装器)的文档,并尝试了以下代码 with PyTessBaseAPI() as api: api.SetImage(image) boxes =

我对计算机视觉的世界还不熟悉

我试图使用Tesseract检测写在卡车侧面的数字

因此,对于这个例子,我希望看到CMA CGM作为输出

我通过命令行将此图像馈送给Tesseract

tesseract image.JPG out -psm 6
但它产生了一个空白文件

然后,我阅读了Tesserocr(Tesseract的python包装器)的文档,并尝试了以下代码

with PyTessBaseAPI() as api:
    api.SetImage(image)
    boxes = api.GetComponentImages(RIL.TEXTLINE, True)
    print 'Found {} textline image components.'.format(len(boxes))
    for i, (im, box, _, _) in enumerate(boxes):
        # im is a PIL image object
        # box is a dict with x, y, w and h keys
        api.SetRectangle(box['x'], box['y'], box['w'], box['h'])
        ocrResult = api.GetUTF8Text()
        conf = api.MeanTextConf()
        print (u"Box[{0}]: x={x}, y={y}, w={w}, h={h}, "
               "confidence: {1}, text: {2}").format(i, conf, ocrResult, **box)
同样,它无法读取图像中的任何字符

我的问题是我应该如何着手解决这个问题?(我不是在寻找现成的代码,而是如何着手解决这个问题的方法)


我是否需要使用示例图像来训练tesseract,或者我可以使用现有库编写代码,以某种方式检测卡车的坐标,并尝试仅在卡车边界内进行OCR

Tesseract只需要文档图像,但图像中有非文档对象。在将其传送到Tesseract OCR之前,您需要一个复杂的分割(然后可能需要一些图像处理)过程。

Tesseract只需要文档图像,但图像中有非文档对象。在将其输入Tesseract OCR之前,您需要一个复杂的分割(然后可能需要一些图像处理)过程。

我有一个三步解决方案

  • 取你想识别的图像部分
  • 申请
  • 申请
您可以使用范围来获取图像的一部分

  • 例如,如果选择
    • 高度范围为:从
      (int(h/4)+40
      int(h/2)-20)
    • 宽度范围为:从
      int(w/2)
      int((w*3)/4)
结果 参加 高斯分布 门槛 脓肿 CMA CGM
我有一个三步解决方案

  • 取你想识别的图像部分
  • 申请
  • 申请
您可以使用范围来获取图像的一部分

  • 例如,如果选择
    • 高度范围为:从
      (int(h/4)+40
      int(h/2)-20)
    • 宽度范围为:从
      int(w/2)
      int((w*3)/4)
结果 参加 高斯分布 门槛 脓肿 CMA CGM
请你详细说明一下复杂的分割部分好吗。我应该如何对其进行分段,以及在什么阶段它可以准备好馈送给Tesseract?-与您需要的相比,Tesseract的psm选项是原始的。您需要类似于车牌检测过程的东西,即从图像中的非文本部分定位文本。OpenCV及其社区可能会有所帮助。请您详细说明复杂的细分部分。我应该如何对其进行分段,以及在什么阶段它可以准备好馈送给Tesseract?-与您需要的相比,Tesseract的psm选项是原始的。您需要类似于车牌检测过程的东西,即从图像中的非文本部分定位文本。OpenCV及其社区可能会有所帮助。