Python Tesseract使用字母子集

Python Tesseract使用字母子集,python,linux,ocr,captcha,tesseract,Python,Linux,Ocr,Captcha,Tesseract,我在Ubuntu Linux上使用tesseract ocr包,我已经使用了一段时间,我认为为了提高ocr的准确性,我只需要字母表中的一部分字母。我需要的信件是: 0123456789abcdefghijklmnopqrstuvwxyz 只有这样,即使不是大写字母,有人能帮我指示tesseract只匹配字母的子集吗 谢谢,来自: 因此,只需在api.SetVariable中设置您自己的字符集合 从 Tesseract 2.03 使用 在调用Init函数或将其放入名为 数据/配置/数字: 然后您

我在Ubuntu Linux上使用tesseract ocr包,我已经使用了一段时间,我认为为了提高ocr的准确性,我只需要字母表中的一部分字母。我需要的信件是:

0123456789abcdefghijklmnopqrstuvwxyz
只有这样,即使不是大写字母,有人能帮我指示tesseract只匹配字母的子集吗

谢谢,

来自:

因此,只需在
api.SetVariable
中设置您自己的字符集合

Tesseract 2.03 使用

在调用Init函数或将其放入名为 数据/配置/数字:

然后您的命令行变成:

警告:直到 如果要合并新的配置变量,则必须使用nobatch 参数也是

Tesseract 3 已经创建了一个数字配置文件,所以只需运行 tesseract命令如下所示:

从:

因此,只需在
api.SetVariable
中设置您自己的字符集合

Tesseract 2.03 使用

在调用Init函数或将其放入名为 数据/配置/数字:

然后您的命令行变成:

警告:直到 如果要合并新的配置变量,则必须使用nobatch 参数也是

Tesseract 3 已经创建了一个数字配置文件,所以只需运行 tesseract命令如下所示:


你要找的是Tesseract白名单。如果您使用python并使用它和API,我认为这应该可以(在Tesseract Google组中找到)


请注意,我不确定这是针对哪个版本的Tesseract。

您要查找的是Tesseract白名单。如果您使用python并使用它和API,我认为这应该可以(在Tesseract Google组中找到)


请注意,我不确定这是针对哪个版本的Tesseract。

我试图了解您想要解码captcha的正当理由。@Andrey这是一个有趣的挑战问题,原因之一:)@Nisan.H one,也是唯一的一个。短语“使用一段时间”让我保持谨慎。“使用一段时间”意味着在我拥有的一组图像上玩tesseract。我试图理解你想要解码captcha的正当理由。@Andrey这是一个有趣的挑战问题,原因之一:)@Nisan.H one和唯一的一个。短语“使用一段时间”让我保持谨慎。“使用一段时间”是指在我拥有的一组图像上玩tesseract。
import tesseract
api = tesseract.TessBaseAPI()
api.Init(".","eng",tesseract.OEM_DEFAULT)
api.SetVariable("tessedit_char_whitelist", "0123456789abcdefghijklmnopqrstuvwxyz")
api.SetPageSegMode(tesseract.PSM_AUTO)
TessBaseAPI::SetVariable("tessedit_char_whitelist", "0123456789");
tessedit_char_whitelist 0123456789 
tesseract image.tif outputbase nobatch digits 
tesseract imagename outputbase digits
api.SetVariable("tessedit_char_whitelist", "abcdefghijklmnopqrstuvwxyz0123456789 ");