Regex Tesseract OCR力模式

Regex Tesseract OCR力模式,regex,ocr,tesseract,Regex,Ocr,Tesseract,我想用Tesseract阅读一个特定的字符序列,如下所示: 我尝试将Tesseract中的模式与模式\d\d\A\A匹配,ocr仍然识别其他不匹配的单词 我曾尝试使用“tessedit_char_whitelist”参数,但无法使用该参数选择字符的位置 我启动命令:tesseract image.jpg result-l eng bazaar 我有这个信息: 请在图案开头至少提供4个具体字符 无效的用户模式\A\A\d\d\d Tesseract开源OCR引擎v3.01,带有Leptoni

我想用Tesseract阅读一个特定的字符序列,如下所示:

我尝试将Tesseract中的模式与模式
\d\d\A\A
匹配,ocr仍然识别其他不匹配的单词

我曾尝试使用“tessedit_char_whitelist”参数,但无法使用该参数选择字符的位置

  • 我启动命令:
    tesseract image.jpg result-l eng bazaar
    我有这个信息:
请在图案开头至少提供4个具体字符

无效的用户模式
\A\A\d\d\d

Tesseract开源OCR引擎v3.01,带有Leptonica

  • image.jpg:

  • 结果是:

    AB123
    ABC12
    A1234
    12345
    ABCD1
    
所以这是错误的,我只是想捕捉序列“AB123”


有人能告诉我为什么我的用户模式文件中的正则表达式无效吗?对于配置,我严格遵循了bazaar教程。

尝试将此模式与量词一起使用

[a-zA-Z]{2}\d{3}
这应该只包括2个字母字符和3个数字


您之所以要匹配之前的所有内容,是因为\w是字母数字。

我相信这个错误:请在模式开头提供至少4个具体字符,这很好地解释了它本身。这可能是您正在使用的is的一个限制。另外请尝试
\w\w\d\d\d
\A
不是您想要的所有“字符”。尝试一下。我尝试了
\w\w\d\d\d
,但我有相同的错误:请在模式的开头提供至少4个具体字符无效的用户模式\w\w\d\d\d。我已在模式中添加了4个具体字符:
测试\w\w\d\d\d
并使用
测试123 TESTABC12
等词语进行测试。。。我没有更多错误请在模式开头提供至少4个具体字符,但我仍然有无效的用户模式测试\w\w\d\d\d。我不明白它为什么无效。您是否尝试过
[A-Z][A-Z][0-9][0-9][0-9]
?您是否在
/path/to/eng.user-patterns
中定义了它?/path/to/configs/bazaar是否包含
user\u patterns\u后缀user patterns
?只是猜测…这个功能很可能已经不起作用了。