Fonts 手写数字的训练TeserAct:mftraining步骤永远需要

Fonts 手写数字的训练TeserAct:mftraining步骤永远需要,fonts,ocr,tesseract,handwriting-recognition,Fonts,Ocr,Tesseract,Handwriting Recognition,我一直在尝试训练Tesseract 3.04识别手写数字。该方法首次出现在论文的以下链接中:。 我使用Training Tesseract 3.04 wiki页面和本教程遵循了必要的步骤: 我从扫描的页面中创建了一个tiff图像,其中包括我手写的数字。我能够使用tesseract的某个第三方GUI(称为tesseract4java)创建一个box文件并编辑该box文件。 我来到MFT培训阶段时没有任何明显的问题 但是发出命令后:mftraining-F font\U properties-U u

我一直在尝试训练Tesseract 3.04识别手写数字。该方法首次出现在论文的以下链接中:。 我使用Training Tesseract 3.04 wiki页面和本教程遵循了必要的步骤:

我从扫描的页面中创建了一个tiff图像,其中包括我手写的数字。我能够使用tesseract的某个第三方GUI(称为tesseract4java)创建一个box文件并编辑该box文件。 我来到MFT培训阶段时没有任何明显的问题

但是发出命令后:mftraining-F font\U properties-U unicharset-O ali.unicharset ali.test\U font.exp0.tr

训练步骤需要很长时间才能完成,过了一段时间我的笔记本电脑就崩溃了。因为我只训练10个角色,每个角色最多15个实例,所以我假设发生这种行为是因为我在上一步中犯了错误。以下是我对可能出现的问题的看法:

  • 我创建了一个字体属性文件,并在其中添加了一个具有所需格式的文本文件。但是,由于我同时也在创建一种新字体,maybe tesseract无法识别新字体,或者认为我在一张tiff图像中混合了这些字体。那么我应该在字体属性文件中添加一个新的字体名吗?但是手写数字应该有什么字体呢

  • Training Tesseract页面声明我应该将我的培训文本添加为UTF-8文本文件,但我尚未完成此步骤。我没有一个培训文本,但有一个图像,我不知道如何将数字翻译成UTF-8文本文件,并将该文件放在哪里这会导致我遇到的问题吗?

  • 也许我创建的文件在错误的目录中。目前,我附加的所有文件(+unicharset和font_属性)都在tesseract.304目录中。我应该将它们添加到tessdata还是在tesseract目录中创建一个新文件

  • 如果您能帮助我回答这些问题,或者就我的mftraining步骤为何会一直持续下去提出任何其他建议,我们将不胜感激。
    多谢各位

    好吧,我想问题是我没有预处理我的输入图像。tiff

    在我将tiff图像转换为8bpp(每像素位)并转换为300dpi密度后,mftraining步骤在几秒钟后完成。 我使用了以下命令:(来自imagemagick)

    convert-density 300-depth 8 input.pdf output.tiff

    另外,我认为将图像更改为灰度会有所帮助

    编辑:mftraining命令中的字体属性文件也应命名为lang.font\u属性