使用C#搜索OCR（可搜索）PDF_Pdf_Ocr

使用C#搜索OCR（可搜索）PDF

pdf

使用C#搜索OCR（可搜索）PDF,pdf,ocr,Pdf,Ocr,我需要从已经使用OCR程序转换的PDF中提取文本。我是使用普通的PDF阅读器获取文本，还是OCR转换的PDF需要特殊处理？有许多商业SDK用于处理PDF文件。这是狐狸牌的这取决于它是如何转变的。许多OCR应用程序以某种方式将文本置于图像下方。有些人这样做是先把文本放下来，再把图像放在上面。有些人将图像放在底部，然后使用“不标记”传输模式将文本放在顶部我之所以提到这一点，是因为我无法预测任何特定的文本提取工具将如何响应透明文本。理论上，它应该只提供文本（Acrobat就是这样做的）。实际上，所

我需要从已经使用OCR程序转换的PDF中提取文本。我是使用普通的PDF阅读器获取文本，还是OCR转换的PDF需要特殊处理？

有许多商业SDK用于处理PDF文件。这是狐狸牌的

这取决于它是如何转变的。许多OCR应用程序以某种方式将文本置于图像下方。有些人这样做是先把文本放下来，再把图像放在上面。有些人将图像放在底部，然后使用“不标记”传输模式将文本放在顶部

我之所以提到这一点，是因为我无法预测任何特定的文本提取工具将如何响应透明文本。理论上，它应该只提供文本（Acrobat就是这样做的）。实际上，所有文本提取工具是否都会出现这种情况，这是任何人的猜测。

我的问题是，使用OCR软件转换的PDF是否与普通PDF有任何不同。或者，OCR转换的PDF仅仅是包含更多文本而不是图像的PDF。我对PDF结构不太了解。谢谢，这个答案与我的要求最接近（我显然没有正确地提出）。就PDF格式而言，OCR转换的PDF与非OCR PDF并无区别。OCR过程只是扫描图像并将文本添加到PDF中。我使用Aspose来提取文本，我想确保如果给我的程序一个非OCR PDF，不会发生任何不好的事情。