使用C#搜索OCR(可搜索)PDF

使用C#搜索OCR(可搜索)PDF,pdf,ocr,Pdf,Ocr,我需要从已经使用OCR程序转换的PDF中提取文本。我是使用普通的PDF阅读器获取文本,还是OCR转换的PDF需要特殊处理?有许多商业SDK用于处理PDF文件。这是狐狸牌的 这取决于它是如何转变的。许多OCR应用程序以某种方式将文本置于图像下方。有些人这样做是先把文本放下来,再把图像放在上面。有些人将图像放在底部,然后使用“不标记”传输模式将文本放在顶部 我之所以提到这一点,是因为我无法预测任何特定的文本提取工具将如何响应透明文本。理论上,它应该只提供文本(Acrobat就是这样做的)。实际上,所

我需要从已经使用OCR程序转换的PDF中提取文本。我是使用普通的PDF阅读器获取文本,还是OCR转换的PDF需要特殊处理?

有许多商业SDK用于处理PDF文件。这是狐狸牌的

这取决于它是如何转变的。许多OCR应用程序以某种方式将文本置于图像下方。有些人这样做是先把文本放下来,再把图像放在上面。有些人将图像放在底部,然后使用“不标记”传输模式将文本放在顶部


我之所以提到这一点,是因为我无法预测任何特定的文本提取工具将如何响应透明文本。理论上,它应该只提供文本(Acrobat就是这样做的)。实际上,所有文本提取工具是否都会出现这种情况,这是任何人的猜测。

我的问题是,使用OCR软件转换的PDF是否与普通PDF有任何不同。或者,OCR转换的PDF仅仅是包含更多文本而不是图像的PDF。我对PDF结构不太了解。谢谢,这个答案与我的要求最接近(我显然没有正确地提出)。就PDF格式而言,OCR转换的PDF与非OCR PDF并无区别。OCR过程只是扫描图像并将文本添加到PDF中。我使用Aspose来提取文本,我想确保如果给我的程序一个非OCR PDF,不会发生任何不好的事情。