c#将PDF转换为Tif_C#_Ocr - Fatal编程技术网

c#将PDF转换为Tif

c#将PDF转换为Tif,c#,ocr,C#,Ocr,我使用ghostscript将PDF转换为带有C$class包装的Tif，然后使用OCR tessnet2读取图像文件的内容，但是Tif图像几乎不可读，图像非常褪色，看起来不对劲，OCR引擎无法读取任何内容。有没有哪种开源或库可以花费我几美元将PDF转换成高质量的TIf？或者任何因为tessnet2无法读取PDF而读取PDF的开源OCR引擎。我不确定是否有开源OCR，但如果您使用ghostscript生成的tiff的分辨率输出，您应该不会有问题试图将-r150添加到ghostscript包装器

我使用ghostscript将PDF转换为带有C$class包装的Tif，然后使用OCR tessnet2读取图像文件的内容，但是Tif图像几乎不可读，图像非常褪色，看起来不对劲，OCR引擎无法读取任何内容。有没有哪种开源或库可以花费我几美元将PDF转换成高质量的TIf？或者任何因为tessnet2无法读取PDF而读取PDF的开源OCR引擎。

我不确定是否有开源OCR，但如果您使用ghostscript生成的tiff的分辨率输出，您应该不会有问题

试图将-r150添加到ghostscript包装器的“字符串参数”中，以更改分辨率，并希望有一个合适大小的MB文件

我必须将imageMagicNET类输出格式的属性更改为png16m和DPI，以便生成的图像质量高且可供OCR引擎读取

正如DaNet所说，我不确定是否有开源DLL或免费方式来实现这一点。我们使用名为leadtools的第三方工具包，在OCR PDF文档中提供了非常好的结果。您可以使用它对图像进行一些处理（即，对图像进行二值化，从图像中删除不需要的点，将其转换为1位黑白，将其另存为TIF图像等），然后将其传递给OCR引擎。我知道他们有一个在线演示，你可以试试。以下是演示的链接：

如果结果符合您的要求，您可以查看本教程：

原始PDF是图片的集合吗？因为如果不是这样，我想你是走错了路。普通PDF已经包含您需要的文本；您的方法应该是直接从PDF中提取文本，而不是试图从PDF的图片中进行OCR。一段字符串有多长？像往常一样，在我们看到有问题的pdf文件之前，我们不可能知道发生了什么。在这种情况下，它听起来像是一张质量差的扫描图像，已经转换成pdf。在使用OCR之前，它可能需要一些图像预处理，如去模糊、去斑点、边缘增强、阈值化。OCR输出质量直接关系到输入质量。垃圾输入=垃圾输出。提高图像质量将产生最佳效果。许多基于图像的PDF没有隐藏的文本层，但很多都有较差的OCR数据。我必须将imageMagicNET类输出格式的属性更改为png16m和DPI，以便生成的图像质量高且可读，以便OCR引擎在我尝试OCR时知道！