c#OCR can'；无法识别数字（tesseract 2）_C#_Ocr_Tesseract

c#OCR can'；无法识别数字（tesseract 2）

c#OCR can'；无法识别数字（tesseract 2）,c#,ocr,tesseract,C#,Ocr,Tesseract,我正在尝试从以下内容中提取数字：它失败了，我得到一个~作为回报。我正在使用谷歌的tesseract 2，使用C#（开源C#包装器），现在我想知道，这张图片太糟糕了，不能用于OCR吗因为imho的数字非常清晰你有没有其他的OCR引擎可以解决这个问题编辑我也尝试过使用Asprise OCR，但它也无法解析图像…我建议调整大小。我在IE中将这个页面放大到200%，截图，打印成PDF格式，然后导入到我使用tessnet的程序中。苔丝把它钉死了！除非我读错了：-）尽管置信度=140（如果你想知

我正在尝试从以下内容中提取数字：

它失败了，我得到一个~作为回报。我正在使用谷歌的tesseract 2，使用C#（开源C#包装器），现在我想知道，这张图片太糟糕了，不能用于OCR吗

因为imho的数字非常清晰

你有没有其他的OCR引擎可以解决这个问题

编辑

我也尝试过使用Asprise OCR，但它也无法解析图像…

我建议调整大小。我在IE中将这个页面放大到200%，截图，打印成PDF格式，然后导入到我使用tessnet的程序中。苔丝把它钉死了！除非我读错了：-）

尽管置信度=140（如果你想知道，最好是100以下）。当然，当我尝试原版尺寸时，我没有得到~；我得到了大约1/2的正确答案，一堆信件和其他垃圾。不够好，但更好

t2似乎喜欢一定大小的图像

我的程序进行处理以使其正常工作。建议使用.net GDI+转换为32位，使用插值模式调整大小高质量双三次曲线。这似乎有点“填补空白”

我发现，无论大小，tesseract的表现都不一样

这两个问题都是预处理的，这很容易，你会想到tesseract会尝试的东西；但是，我知道如何调整大小和插值；我不知道如何进行OCR！所以我愿意安定下来

你的图像分辨率太低了——96 DPI，可能是屏幕截图。将其重新缩放到300 DPI，tessnet2应该能够识别它。

可能您支付美元购买的任何引擎都能够获得数字-例如Abbyy或Oce。这是为我的公司提供的。从任务的规模来看，我肯定他们不会为此支付美元，我也不会为此支付。这就是困境：/。但是你认为我的图像对于弱的ocr引擎来说太糟糕了吗？你会推荐其他开源的甚至免费的引擎吗？我还没有找到一个好的开源ocr。我很想知道是否也存在这种情况。据我所知，在文档处理中有很多钱是通过点击（文档或页面）来收费的。是的，这是一个糟糕的图像。点大小太小，文本没有抗锯齿，因此太块状。后者可能是扫描仪的伪影。我可以用你的代码重新处理图像质量，这样我就可以插入并测试它了吗？Thanks@CoolStraw-事实上，我用Alfred Bolliger的PrintKey 2000拍摄了IE8的屏幕截图，用PDFMachineWhite免费版打印，然后我的程序使用verydoc的pdf2vec自动将其转换为WMF，并使用VB.NET/GDI+，在UI中呈现WMF，并调整其大小，允许我拖动一个选择矩形并从弹出窗口中选择OCR，为单独的进程保存一个片段，以便使用tessnet对其进行OCR…（我忍不住要说！）不要那么努力。使用这样的代码（）来调整大小，只放大，不缩小。伙计，你震撼了我的世界，宝贝！非常感谢你解决了我的拦截器问题！