Computer vision 进行OCR识别卡车/汽车或其他车辆上的文字_Computer Vision_Ocr_Tesseract_Python Tesseract

Computer vision 进行OCR识别卡车/汽车或其他车辆上的文字

computer-vision

Computer vision 进行OCR识别卡车/汽车或其他车辆上的文字,computer-vision,ocr,tesseract,python-tesseract,Computer Vision,Ocr,Tesseract,Python Tesseract,我对计算机视觉的世界还不熟悉我试图使用Tesseract检测写在卡车侧面的数字因此，对于这个例子，我希望看到CMA CGM作为输出我通过命令行将此图像馈送给Tesseract tesseract image.JPG out -psm 6 但它产生了一个空白文件然后，我阅读了Tesserocr（Tesseract的python包装器）的文档，并尝试了以下代码 with PyTessBaseAPI() as api: api.SetImage(image) boxes =

我对计算机视觉的世界还不熟悉

我试图使用Tesseract检测写在卡车侧面的数字

因此，对于这个例子，我希望看到CMA CGM作为输出

我通过命令行将此图像馈送给Tesseract

tesseract image.JPG out -psm 6

但它产生了一个空白文件

然后，我阅读了Tesserocr（Tesseract的python包装器）的文档，并尝试了以下代码

with PyTessBaseAPI() as api:
    api.SetImage(image)
    boxes = api.GetComponentImages(RIL.TEXTLINE, True)
    print 'Found {} textline image components.'.format(len(boxes))
    for i, (im, box, _, _) in enumerate(boxes):
        # im is a PIL image object
        # box is a dict with x, y, w and h keys
        api.SetRectangle(box['x'], box['y'], box['w'], box['h'])
        ocrResult = api.GetUTF8Text()
        conf = api.MeanTextConf()
        print (u"Box[{0}]: x={x}, y={y}, w={w}, h={h}, "
               "confidence: {1}, text: {2}").format(i, conf, ocrResult, **box)

同样，它无法读取图像中的任何字符

我的问题是我应该如何着手解决这个问题？（我不是在寻找现成的代码，而是如何着手解决这个问题的方法）

我是否需要使用示例图像来训练tesseract，或者我可以使用现有库编写代码，以某种方式检测卡车的坐标，并尝试仅在卡车边界内进行OCR

Tesseract只需要文档图像，但图像中有非文档对象。在将其传送到Tesseract OCR之前，您需要一个复杂的分割（然后可能需要一些图像处理）过程。

Tesseract只需要文档图像，但图像中有非文档对象。在将其输入Tesseract OCR之前，您需要一个复杂的分割（然后可能需要一些图像处理）过程。

我有一个三步解决方案

取你想识别的图像部分
申请
申请

您可以使用范围来获取图像的一部分

例如，如果选择
- 高度范围为：从
```
（int（h/4）+40
```
  到
```
int（h/2）-20）
```
- 宽度范围为：从
```
int（w/2）
```
  到
```
int（（w*3）/4）
```

结果参加高斯分布门槛脓肿 CMA CGM

我有一个三步解决方案

取你想识别的图像部分
申请
申请

您可以使用范围来获取图像的一部分

例如，如果选择
- 高度范围为：从
```
（int（h/4）+40
```
  到
```
int（h/2）-20）
```
- 宽度范围为：从
```
int（w/2）
```
  到
```
int（（w*3）/4）
```

结果参加高斯分布门槛脓肿 CMA CGM

请你详细说明一下复杂的分割部分好吗。我应该如何对其进行分段，以及在什么阶段它可以准备好馈送给Tesseract？-与您需要的相比，Tesseract的psm选项是原始的。您需要类似于车牌检测过程的东西，即从图像中的非文本部分定位文本。OpenCV及其社区可能会有所帮助。请您详细说明复杂的细分部分。我应该如何对其进行分段，以及在什么阶段它可以准备好馈送给Tesseract？-与您需要的相比，Tesseract的psm选项是原始的。您需要类似于车牌检测过程的东西，即从图像中的非文本部分定位文本。OpenCV及其社区可能会有所帮助。