python tesseract OCR:仅获取数字

python tesseract OCR:仅获取数字,python,tesseract,Python,Tesseract,我将tesseract与python tesseract一起使用。 在中,关于数字,我们有: 使用 TessBaseAPI::SetVariable(“tessedit_char_白名单”,“0123456789”) 在调用Init函数或将其放入名为 数据/配置/数字: tessedit\u char\u白名单0123456789 然后您的命令行变成: tesseract image.tif outputbase nobatch数字 警告:在新旧配置变量合并之前,您必须 还有nobatch参数

我将tesseract与python tesseract一起使用。 在中,关于数字,我们有:

使用

TessBaseAPI::SetVariable(“tessedit_char_白名单”,“0123456789”)

在调用Init函数或将其放入名为 数据/配置/数字:

tessedit\u char\u白名单0123456789

然后您的命令行变成:

tesseract image.tif outputbase nobatch数字

警告:在新旧配置变量合并之前,您必须 还有nobatch参数

在python tesseract中,存在SetVariable方法。我已经试过了,但OCR的结果是一样的:

api = tesseract.TessBaseAPI()
api.SetVariable("tessedit_char_whitelist", "0123456789")
api.Init('.','eng',tesseract.OEM_DEFAULT)
api.SetPageSegMode(tesseract.PSM_AUTO)

是否有人已经做过这个工作,或者我认为它是Python TestSerAt中的一个bug?

根据tesseract ocr的这一点,SetVariable()必须在Init()之后调用,尽管官方FAQ中的说法正好相反。 在Init()之后调用它可以正常工作