c#将PDF转换为Tif

c#将PDF转换为Tif,c#,ocr,C#,Ocr,我使用ghostscript将PDF转换为带有C$class包装的Tif,然后使用OCR tessnet2读取图像文件的内容,但是Tif图像几乎不可读,图像非常褪色,看起来不对劲,OCR引擎无法读取任何内容。有没有哪种开源或库可以花费我几美元将PDF转换成高质量的TIf?或者任何因为tessnet2无法读取PDF而读取PDF的开源OCR引擎。我不确定是否有开源OCR,但如果您使用ghostscript生成的tiff的分辨率输出,您应该不会有问题 试图将-r150添加到ghostscript包装器

我使用ghostscript将PDF转换为带有C$class包装的Tif,然后使用OCR tessnet2读取图像文件的内容,但是Tif图像几乎不可读,图像非常褪色,看起来不对劲,OCR引擎无法读取任何内容。有没有哪种开源或库可以花费我几美元将PDF转换成高质量的TIf?或者任何因为tessnet2无法读取PDF而读取PDF的开源OCR引擎。

我不确定是否有开源OCR,但如果您使用ghostscript生成的tiff的分辨率输出,您应该不会有问题


试图将-r150添加到ghostscript包装器的“字符串参数”中,以更改分辨率,并希望有一个合适大小的MB文件

我必须将imageMagicNET类输出格式的属性更改为png16m和DPI,以便生成的图像质量高且可供OCR引擎读取

正如DaNet所说,我不确定是否有开源DLL或免费方式来实现这一点。我们使用名为leadtools的第三方工具包,在OCR PDF文档中提供了非常好的结果。您可以使用它对图像进行一些处理(即,对图像进行二值化,从图像中删除不需要的点,将其转换为1位黑白,将其另存为TIF图像等),然后将其传递给OCR引擎。 我知道他们有一个在线演示,你可以试试。以下是演示的链接:

如果结果符合您的要求,您可以查看本教程:

原始PDF是图片的集合吗?因为如果不是这样,我想你是走错了路。普通PDF已经包含您需要的文本;您的方法应该是直接从PDF中提取文本,而不是试图从PDF的图片中进行OCR。一段字符串有多长?像往常一样,在我们看到有问题的pdf文件之前,我们不可能知道发生了什么。在这种情况下,它听起来像是一张质量差的扫描图像,已经转换成pdf。在使用OCR之前,它可能需要一些图像预处理,如去模糊、去斑点、边缘增强、阈值化。OCR输出质量直接关系到输入质量。垃圾输入=垃圾输出。提高图像质量将产生最佳效果。许多基于图像的PDF没有隐藏的文本层,但很多都有较差的OCR数据。我必须将imageMagicNET类输出格式的属性更改为png16m和DPI,以便生成的图像质量高且可读,以便OCR引擎在我尝试OCR时知道!