c#OCR can';无法识别数字(tesseract 2)

c#OCR can';无法识别数字(tesseract 2),c#,ocr,tesseract,C#,Ocr,Tesseract,我正在尝试从以下内容中提取数字: 它失败了,我得到一个~作为回报。我正在使用谷歌的tesseract 2,使用C#(开源C#包装器),现在我想知道,这张图片太糟糕了,不能用于OCR吗 因为imho的数字非常清晰 你有没有其他的OCR引擎可以解决这个问题 编辑 我也尝试过使用Asprise OCR,但它也无法解析图像…我建议调整大小。我在IE中将这个页面放大到200%,截图,打印成PDF格式,然后导入到我使用tessnet的程序中。苔丝把它钉死了!除非我读错了:-) 尽管置信度=140(如果你想知

我正在尝试从以下内容中提取数字:

它失败了,我得到一个~作为回报。我正在使用谷歌的tesseract 2,使用C#(开源C#包装器),现在我想知道,这张图片太糟糕了,不能用于OCR吗

因为imho的数字非常清晰

你有没有其他的OCR引擎可以解决这个问题

编辑


我也尝试过使用Asprise OCR,但它也无法解析图像…

我建议调整大小。我在IE中将这个页面放大到200%,截图,打印成PDF格式,然后导入到我使用tessnet的程序中。苔丝把它钉死了!除非我读错了:-)

尽管置信度=140(如果你想知道,最好是100以下)。当然,当我尝试原版尺寸时,我没有得到~;我得到了大约1/2的正确答案,一堆信件和其他垃圾。不够好,但更好

t2似乎喜欢一定大小的图像

我的程序进行处理以使其正常工作。建议使用.net GDI+转换为32位,使用插值模式调整大小高质量双三次曲线。这似乎有点“填补空白”

我发现,无论大小,tesseract的表现都不一样


这两个问题都是预处理的,这很容易,你会想到tesseract会尝试的东西;但是,我知道如何调整大小和插值;我不知道如何进行OCR!所以我愿意安定下来

你的图像分辨率太低了——96 DPI,可能是屏幕截图。将其重新缩放到300 DPI,tessnet2应该能够识别它。

可能您支付美元购买的任何引擎都能够获得数字-例如Abbyy或Oce。这是为我的公司提供的。从任务的规模来看,我肯定他们不会为此支付美元,我也不会为此支付。这就是困境:/。但是你认为我的图像对于弱的ocr引擎来说太糟糕了吗?你会推荐其他开源的甚至免费的引擎吗?我还没有找到一个好的开源ocr。我很想知道是否也存在这种情况。据我所知,在文档处理中有很多钱是通过点击(文档或页面)来收费的。是的,这是一个糟糕的图像。点大小太小,文本没有抗锯齿,因此太块状。后者可能是扫描仪的伪影。我可以用你的代码重新处理图像质量,这样我就可以插入并测试它了吗?Thanks@CoolStraw-事实上,我用Alfred Bolliger的PrintKey 2000拍摄了IE8的屏幕截图,用PDFMachineWhite免费版打印,然后我的程序使用verydoc的pdf2vec自动将其转换为WMF,并使用VB.NET/GDI+,在UI中呈现WMF,并调整其大小,允许我拖动一个选择矩形并从弹出窗口中选择OCR,为单独的进程保存一个片段,以便使用tessnet对其进行OCR…(我忍不住要说!)不要那么努力。使用这样的代码()来调整大小,只放大,不缩小。伙计,你震撼了我的世界,宝贝!非常感谢你解决了我的拦截器问题!