Regex Tesseract OCR力模式_Regex_Ocr_Tesseract

Regex Tesseract OCR力模式

regex

Regex Tesseract OCR力模式,regex,ocr,tesseract,Regex,Ocr,Tesseract,我想用Tesseract阅读一个特定的字符序列，如下所示：我尝试将Tesseract中的模式与模式\d\d\A\A匹配，ocr仍然识别其他不匹配的单词我曾尝试使用“tessedit_char_whitelist”参数，但无法使用该参数选择字符的位置我启动命令：tesseract image.jpg result-l eng bazaar 我有这个信息：请在图案开头至少提供4个具体字符无效的用户模式\A\A\d\d\d Tesseract开源OCR引擎v3.01，带有Leptoni

我想用Tesseract阅读一个特定的字符序列，如下所示：

我尝试将Tesseract中的模式与模式

\d\d\A\A

匹配，ocr仍然识别其他不匹配的单词

我曾尝试使用“tessedit_char_whitelist”参数，但无法使用该参数选择字符的位置

我启动命令：
```
tesseract image.jpg result-l eng bazaar
```
我有这个信息：

请在图案开头至少提供4个具体字符

无效的用户模式

\A\A\d\d\d

Tesseract开源OCR引擎v3.01，带有Leptonica

image.jpg：

结果是：
```
AB123
ABC12
A1234
12345
ABCD1
```

所以这是错误的，我只是想捕捉序列“AB123”

有人能告诉我为什么我的用户模式文件中的正则表达式无效吗？对于配置，我严格遵循了bazaar教程。

尝试将此模式与量词一起使用

[a-zA-Z]{2}\d{3}

这应该只包括2个字母字符和3个数字

您之所以要匹配之前的所有内容，是因为\w是字母数字。

我相信这个错误：请在模式开头提供至少4个具体字符，这很好地解释了它本身。这可能是您正在使用的is的一个限制。另外请尝试

\w\w\d\d\d

，

\A

不是您想要的所有“字符”。尝试一下。我尝试了

\w\w\d\d\d

，但我有相同的错误：请在模式的开头提供至少4个具体字符无效的用户模式\w\w\d\d\d。我已在模式中添加了4个具体字符：

测试\w\w\d\d\d

并使用

测试123 TESTABC12

等词语进行测试。。。我没有更多错误请在模式开头提供至少4个具体字符，但我仍然有无效的用户模式测试\w\w\d\d\d。我不明白它为什么无效。您是否尝试过

[A-Z][A-Z][0-9][0-9][0-9]

？您是否在

/path/to/eng.user-patterns

中定义了它？/path/to/configs/bazaar是否包含

user\u patterns\u后缀user patterns

？只是猜测…这个功能很可能已经不起作用了。