Python 2.7 在不使用单词列表的情况下为tesseract 3.03生成eng.traineddata

Python 2.7 在不使用单词列表的情况下为tesseract 3.03生成eng.traineddata,python-2.7,tesseract,Python 2.7,Tesseract,我在做一个图像处理项目。我要做的是从图像中提取文本,实际上我正在windows上使用tesseract 3.03的python包装器,并且我已经下载了多种语言(英语、法语等)的.traineddata文件。问题是我在某个地方读到,tesseract在检测到分离的字符后尝试使用单词列表文件检测单词。我的问题是如何在不使用wordlist的情况下生成.traineddata文件,因为我希望tesseract在不验证单词的情况下返回检测到的句子您可以解压缩.traineddata文件,将字典组件替换为

我在做一个图像处理项目。我要做的是从图像中提取文本,实际上我正在windows上使用tesseract 3.03的python包装器,并且我已经下载了多种语言(英语、法语等)的.traineddata文件。问题是我在某个地方读到,tesseract在检测到分离的字符后尝试使用单词列表文件检测单词。我的问题是如何在不使用wordlist的情况下生成.traineddata文件,因为我希望tesseract在不验证单词的情况下返回检测到的句子

您可以解压缩
.traineddata
文件,将字典组件替换为空组件,然后重新打包。或者您可以简单地禁用字典


非常感谢,我会尝试一下,并提供反馈我已经做了快速搜索,我知道.traineddata文件是通过处理文件tessdata/eng.config tessdata/eng.unicharset tessdata/eng.unicharambigs tessdata/eng.inttemp tessdata/eng.pffmtable tessdata/eng.normproto tessdata/eng.punc-dawg tessdata/eng.word-dawg tessdata/eng.number-dawg tessdata/eng.freq-dawg生成的,正如您所说,我将替换它tessdata/eng.punc-dawg tessdata/eng.word-dawg tessdata/eng.number-dawg tessdata/eng.freq-dawg为空。现在的问题是在哪里找到tesseract 3.02I的其他文件?我只是在寻找一个unicharset文件和对应的inttemp、pffmtable、normproto(英文版),tesseract 3.02检查打开的
合并数据
以解压缩
.traineddata
文件。