Fonts 手写数字的训练TeserAct：mftraining步骤永远需要_Fonts_Ocr_Tesseract_Handwriting Recognition

Fonts 手写数字的训练TeserAct：mftraining步骤永远需要

fonts

Fonts 手写数字的训练TeserAct：mftraining步骤永远需要,fonts,ocr,tesseract,handwriting-recognition,Fonts,Ocr,Tesseract,Handwriting Recognition,我一直在尝试训练Tesseract 3.04识别手写数字。该方法首次出现在论文的以下链接中：。我使用Training Tesseract 3.04 wiki页面和本教程遵循了必要的步骤：我从扫描的页面中创建了一个tiff图像，其中包括我手写的数字。我能够使用tesseract的某个第三方GUI（称为tesseract4java）创建一个box文件并编辑该box文件。我来到MFT培训阶段时没有任何明显的问题但是发出命令后：mftraining-F font\U properties-U u

我一直在尝试训练Tesseract 3.04识别手写数字。该方法首次出现在论文的以下链接中：。我使用Training Tesseract 3.04 wiki页面和本教程遵循了必要的步骤：

我从扫描的页面中创建了一个tiff图像，其中包括我手写的数字。我能够使用tesseract的某个第三方GUI（称为tesseract4java）创建一个box文件并编辑该box文件。我来到MFT培训阶段时没有任何明显的问题

但是发出命令后：mftraining-F font\U properties-U unicharset-O ali.unicharset ali.test\U font.exp0.tr

训练步骤需要很长时间才能完成，过了一段时间我的笔记本电脑就崩溃了。因为我只训练10个角色，每个角色最多15个实例，所以我假设发生这种行为是因为我在上一步中犯了错误。以下是我对可能出现的问题的看法：

我创建了一个字体属性文件，并在其中添加了一个具有所需格式的文本文件。但是，由于我同时也在创建一种新字体，maybe tesseract无法识别新字体，或者认为我在一张tiff图像中混合了这些字体。那么我应该在字体属性文件中添加一个新的字体名吗？但是手写数字应该有什么字体呢

Training Tesseract页面声明我应该将我的培训文本添加为UTF-8文本文件，但我尚未完成此步骤。我没有一个培训文本，但有一个图像，我不知道如何将数字翻译成UTF-8文本文件，并将该文件放在哪里这会导致我遇到的问题吗？

也许我创建的文件在错误的目录中。目前，我附加的所有文件（+unicharset和font_属性）都在tesseract.304目录中。我应该将它们添加到tessdata还是在tesseract目录中创建一个新文件

如果您能帮助我回答这些问题，或者就我的mftraining步骤为何会一直持续下去提出任何其他建议，我们将不胜感激。

多谢各位

好吧，我想问题是我没有预处理我的输入图像。tiff

在我将tiff图像转换为8bpp（每像素位）并转换为300dpi密度后，mftraining步骤在几秒钟后完成。我使用了以下命令：（来自imagemagick）

convert-density 300-depth 8 input.pdf output.tiff

另外，我认为将图像更改为灰度会有所帮助

编辑：mftraining命令中的字体属性文件也应命名为lang.font\u属性