Warning: file_get_contents(/data/phpspider/zhask/data//catemap/6/cplusplus/141.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 简单列表的Tesseract训练技术_Python_C++_Ocr_Tesseract_Leptonica - Fatal编程技术网

Python 简单列表的Tesseract训练技术

Python 简单列表的Tesseract训练技术,python,c++,ocr,tesseract,leptonica,Python,C++,Ocr,Tesseract,Leptonica,因此,我正在培训自适应分类器(Tesseract中的默认引擎)。 但我在这方面有点麻烦,因为文档非常零碎和/或缺失 我正在训练一个非常小的数据集,我想我刚开始使用arial black,直到我收集更多关于我的主题的数据。 我想识别say化妆品(丹麦语)上的标签,这只是一个列表(逗号分隔的单词)。只有非常具体的词,特别是: 斯莫尔, 奥斯特, 酸奶, 艾默尔, 伊莉特, 弗勒德, 奶昔, 莱克托斯, 米尔凯萨克, 动物节, 动物油, 斯莫罗利, 巴格尔马格里纳, 人造奶油 米纳林, 利巴杰梅尔,

因此,我正在培训自适应分类器(Tesseract中的默认引擎)。 但我在这方面有点麻烦,因为文档非常零碎和/或缺失

我正在训练一个非常小的数据集,我想我刚开始使用arial black,直到我收集更多关于我的主题的数据。 我想识别say化妆品(丹麦语)上的标签,这只是一个列表(逗号分隔的单词)。只有非常具体的词,特别是:

斯莫尔, 奥斯特, 酸奶, 艾默尔, 伊莉特, 弗勒德, 奶昔, 莱克托斯, 米尔凯萨克, 动物节, 动物油, 斯莫罗利, 巴格尔马格里纳, 人造奶油 米纳林, 利巴杰梅尔, 因达佩特·穆尔克, mælkebestandele, 穆尔凯托夫, 托尔梅尔克, 马尔卡普尔弗, skummetmælkspulver, 瑟德穆尔斯普尔弗, mælkeprotein, 乳清蛋白, 卡森, 卡塞纳特, 卡塞纳钙, 卡利乌姆卡塞纳特, 利钠肽, 瓦勒, 谷蛋白, 瓦勒普尔弗, 马尔克

以及以大写字母开头的相同单词(例如:“Vallepulver”)。 但是我一直很难为这种形态找到合适的配置文件,我认为我应该使用DAWG系统,因为准确性和速度非常重要

到目前为止,我采取了以下步骤: 使用jTessboxeditor生成.box文件 将.box文件转换为.tr文件,文件名为tesseract imagefile.exp0,文件名为box nobatch box.train 然后使用unicharset_提取器filename.exp0.box提取unicharset 创建包含以下内容的字体属性文件:arial 1 0 然后使用“mftraining”“cntraining”对角色特征进行聚类 将所有文件重命名为我选择的语言名称 创建包含上述列表的单词列表 使用wordlist2dawg将单词列表转换为lang.words.dawg 最后将数据与combine_tessdata lang相结合。 但我仍然体验到非常不准确的结果(我使用scantailor在将图像馈送给Tesseract之前对图像进行预处理),以下是我目前正在测试Tesseract的图像(采用.tif格式):

系统只能识别上面列表中的单词(因此列表和图像之间的唯一匹配是“milk”)

任何关于我可能做错什么/改进什么(特别是在我不存在的配置中)的建议都是非常值得赞赏的,因为我已经为此奋斗了很长一段时间了


真诚地说,你是一个绝望的书呆子。

你有没有试过解析Tesseract返回的结果,并手动挑选出你想要的单词?e、 g.您有一个可接受单词的列表和Tesseract返回的每个单词的列表,因此您应该能够选择您想要的单词,但是感谢您的回复:-)