Python 2.7 在不使用单词列表的情况下为tesseract 3.03生成eng.traineddata_Python 2.7_Tesseract

Python 2.7 在不使用单词列表的情况下为tesseract 3.03生成eng.traineddata

python-2.7

Python 2.7 在不使用单词列表的情况下为tesseract 3.03生成eng.traineddata,python-2.7,tesseract,Python 2.7,Tesseract,我在做一个图像处理项目。我要做的是从图像中提取文本，实际上我正在windows上使用tesseract 3.03的python包装器，并且我已经下载了多种语言（英语、法语等）的.traineddata文件。问题是我在某个地方读到，tesseract在检测到分离的字符后尝试使用单词列表文件检测单词。我的问题是如何在不使用wordlist的情况下生成.traineddata文件，因为我希望tesseract在不验证单词的情况下返回检测到的句子您可以解压缩.traineddata文件，将字典组件替换为

我在做一个图像处理项目。我要做的是从图像中提取文本，实际上我正在windows上使用tesseract 3.03的python包装器，并且我已经下载了多种语言（英语、法语等）的.traineddata文件。问题是我在某个地方读到，tesseract在检测到分离的字符后尝试使用单词列表文件检测单词。我的问题是如何在不使用wordlist的情况下生成.traineddata文件，因为我希望tesseract在不验证单词的情况下返回检测到的句子

您可以解压缩

.traineddata

文件，将字典组件替换为空组件，然后重新打包。或者您可以简单地禁用字典

非常感谢，我会尝试一下，并提供反馈我已经做了快速搜索，我知道.traineddata文件是通过处理文件tessdata/eng.config tessdata/eng.unicharset tessdata/eng.unicharambigs tessdata/eng.inttemp tessdata/eng.pffmtable tessdata/eng.normproto tessdata/eng.punc-dawg tessdata/eng.word-dawg tessdata/eng.number-dawg tessdata/eng.freq-dawg生成的，正如您所说，我将替换它tessdata/eng.punc-dawg tessdata/eng.word-dawg tessdata/eng.number-dawg tessdata/eng.freq-dawg为空。现在的问题是在哪里找到tesseract 3.02I的其他文件？我只是在寻找一个unicharset文件和对应的inttemp、pffmtable、normproto（英文版），tesseract 3.02检查打开的

合并数据

以解压缩

.traineddata

文件。