Windows runtime 使用OCR引擎识别Micr字体?

Windows runtime 使用OCR引擎识别Micr字体?,windows-runtime,windows-phone,ocr,microsoft-ocr,Windows Runtime,Windows Phone,Ocr,Microsoft Ocr,我正在使用Microsoft OCR库阅读文本 Microsoft OCR库工作得非常好。但是,我想阅读以下链接中给出的字符列表。是否有一种方法可以训练OCR库读取以下字符,或者是否有一种语言可以读取以下字符。我已经使用Microsoft OCR一段时间了。 与Tesseract相比,它具有非常基本的功能 例如,Microsoft OCR返回单词和行。 但这些台词都是胡说八道。随机将2或3个单词分组为一条“线”,但它们不是真正的线。而“线”是完全无序的。在这方面,它比Tesseract更糟糕。你

我正在使用Microsoft OCR库阅读文本


Microsoft OCR库工作得非常好。但是,我想阅读以下链接中给出的字符列表。是否有一种方法可以训练OCR库读取以下字符,或者是否有一种语言可以读取以下字符。

我已经使用Microsoft OCR一段时间了。 与Tesseract相比,它具有非常基本的功能

例如,Microsoft OCR返回单词和行。 但这些台词都是胡说八道。随机将2或3个单词分组为一条“线”,但它们不是真正的线。而“线”是完全无序的。在这方面,它比Tesseract更糟糕。你必须自己获取每个单词的坐标并对它们进行排序

Microsoft不会返回字符的矩形,并且绝对没有办法以任何方式配置或训练Microsoft OCR。您可以使用Windows Update为“基本类型”=OCR(请参阅)添加语言,但无法训练自己的语言数据

表示以下25种语言的支持精度不同:

  • 优秀:捷克语、丹麦语、荷兰语、英语、芬兰语、法语、德语、匈牙利语、意大利语、挪威语、波兰语、葡萄牙语、罗马尼亚语、塞尔维亚西里尔语、塞尔维亚拉丁语、斯洛伐克语、西班牙语和瑞典语
  • 非常好:简体中文、希腊文、日文、俄文和土耳其语
  • 好:中国传统和韩国
识别质量与Tesseract非常相似。它甚至有与Tesseract完全相同的问题。有些单个字符无法识别(单独的符号,如单个“$”),它与Tesseract的星号有着相同的巨大问题。它也会像Tesseract那样在错误的位置插入空格。所以我问自己,微软是否在幕后使用Tesseract

然而,Microsoft OCR比Tesseract有一个优势:图像预处理要好得多。黄色背景上是红色文本还是黑色背景上是白色文本并不重要。这是对Tesseract的一个捕获,它需要一个高质量的黑白图像作为输入


这两种OCR库都适用:如果您有识别问题,请尝试放大图像。即使是模糊图像也可能非常有用,因为这样可以消除图像中的噪声。

[Microsoft OCR crew here]我们还不支持培训OCR来为您的用例定制它。不过,我们会积极关注stackoverflow,以了解开发人员需要什么,因此我们可以不断改进OCR引擎。

在支持的25种语言中,有哪种语言能够识别这些字体?@Cornelia:好的。如果您想改进OCR引擎,可以做几件事。1.)以正确的顺序输出文本。这意味着从左上角到右下角,并不是所有单词都按随机顺序排列。并将单词分组成正确的行。2.)为什么OCR不能正确识别星号?例如,像“***123”这样的文本根本不被识别。删除星号后,“123”会突然被识别出来。3.)为什么有时单个字符被正确识别,而在另一个地方相同的字符被省略?如果你喜欢,我可以给你发送错误结果的样本图片。没有回应。我发现微软对改进其产品不感兴趣。我的主要目标是在windows phone上只阅读包含MICR带的支票的底部,该带的字体如下。我应该使用tesseract,还是有办法在Microsoft OCR中使用?为什么你会问这么多问题?试试看!但我确信一个简单的OCR引擎不会识别MICR字体。你认为除了你,有多少Windows用户希望阅读MICR字体?2016年,谁还在处理过期支票?我们生活在电子支付时代。几十年来,支票已经过时了。我已经有20年没有使用支票了。你为什么要读MICR代码?你为什么不读一下支票上的明文呢?