Fonts 手写数字的训练TeserAct:mftraining步骤永远需要
我一直在尝试训练Tesseract 3.04识别手写数字。该方法首次出现在论文的以下链接中:。 我使用Training Tesseract 3.04 wiki页面和本教程遵循了必要的步骤: 我从扫描的页面中创建了一个tiff图像,其中包括我手写的数字。我能够使用tesseract的某个第三方GUI(称为tesseract4java)创建一个box文件并编辑该box文件。 我来到MFT培训阶段时没有任何明显的问题 但是发出命令后:mftraining-F font\U properties-U unicharset-O ali.unicharset ali.test\U font.exp0.tr 训练步骤需要很长时间才能完成,过了一段时间我的笔记本电脑就崩溃了。因为我只训练10个角色,每个角色最多15个实例,所以我假设发生这种行为是因为我在上一步中犯了错误。以下是我对可能出现的问题的看法:Fonts 手写数字的训练TeserAct:mftraining步骤永远需要,fonts,ocr,tesseract,handwriting-recognition,Fonts,Ocr,Tesseract,Handwriting Recognition,我一直在尝试训练Tesseract 3.04识别手写数字。该方法首次出现在论文的以下链接中:。 我使用Training Tesseract 3.04 wiki页面和本教程遵循了必要的步骤: 我从扫描的页面中创建了一个tiff图像,其中包括我手写的数字。我能够使用tesseract的某个第三方GUI(称为tesseract4java)创建一个box文件并编辑该box文件。 我来到MFT培训阶段时没有任何明显的问题 但是发出命令后:mftraining-F font\U properties-U u
多谢各位 好吧,我想问题是我没有预处理我的输入图像。tiff 在我将tiff图像转换为8bpp(每像素位)并转换为300dpi密度后,mftraining步骤在几秒钟后完成。 我使用了以下命令:(来自imagemagick) convert-density 300-depth 8 input.pdf output.tiff 另外,我认为将图像更改为灰度会有所帮助 编辑:mftraining命令中的字体属性文件也应命名为lang.font\u属性