Programming languages 从图像中提取java代码(使用tesseract?)

Programming languages 从图像中提取java代码(使用tesseract?),programming-languages,ocr,tesseract,Programming Languages,Ocr,Tesseract,我尝试提取存储在PDF文件图像中的Java代码 我已经尝试使用Tesseract,但是看起来像是*{…这样的特殊字符与英语不太匹配,因为我的输出文件非常不一致 事实上,我可以识别Java代码的一些摘录,但大多数情况下,文本已损坏 所以我想知道你们当中是否有人知道Tesseract的语言扩展,或者其他可以提取Java代码的OCR软件 感谢您的帮助:-)。OCR的质量无疑取决于图像的质量,但也取决于所使用的技术,尤其是不完美的图像。此外,随着图像复杂性的增加(格式、专用字体、特定文本结构等)OCR软

我尝试提取存储在PDF文件图像中的Java代码

我已经尝试使用Tesseract,但是看起来像是*{…这样的特殊字符与英语不太匹配,因为我的输出文件非常不一致

事实上,我可以识别Java代码的一些摘录,但大多数情况下,文本已损坏

所以我想知道你们当中是否有人知道Tesseract的语言扩展,或者其他可以提取Java代码的OCR软件


感谢您的帮助:-)。

OCR的质量无疑取决于图像的质量,但也取决于所使用的技术,尤其是不完美的图像。此外,随着图像复杂性的增加(格式、专用字体、特定文本结构等)OCR软件的强度得到了进一步的压力测试

对于一种具有大量特殊字符和比典型的文本段落更复杂的行结构的编程语言,一些OCR程序将具有专门的处理模式。例如,在ABBYY OCR中,您实际上可以从所包含的几种编程语言(C++、Java等)中选择一种提高识别质量

对于您的图片,我很乐意通过我已有的软件为您处理。请私下将您的页面发送给我。我可以通过wisetrend.com的ilyae联系到我。这需要几分钟的时间


或者,如果您想自己免费完成,并且没有获得任何OCR软件许可证,或者将来可能需要处理更多,您可以使用OCR-it Web API()并注册一个免费帐户。它是API,因此需要几行脚本,或者您可以使用Fiddler进行web请求。语言列表在这里()(请参见页面底部),并使用“Java”OCR软件的语言。我有OCR软件,它有一些编程语言的特殊字典,包括C++,我认为可以为你的文本类型工作。你需要处理多少页?它应该做的!我有9页。在一个例子页面上。如果字体大小很小,OCR的最佳扫描设置是300 DPI,或者400 DPI。