搜索PDF中没有文本的页面_Pdf_Text_Ocr_Ghostscript

搜索PDF中没有文本的页面

pdf text

搜索PDF中没有文本的页面,pdf,text,ocr,ghostscript,Pdf,Text,Ocr,Ghostscript,如何在pdf文件中搜索“空”页面？在下一步中，我想使用ghostscript将这些页面转换为.tiff。如果可以在unix机器上用一个命令完成所有操作，那就太完美了这在很大程度上取决于你所说的“文本”（来自主题行）或“空白”页面（来自正文）。它完全有可能具有再现文本形状的向量路径，或者实际上是再现字符形状的图像你认为这些是“文本”吗？或者你是在寻找完全没有内容的网页？我无法想象你为什么要把这些交给TIFF 对于没有文本的页面（即不使用任何PDF文本操作符），我将使用Ghostscript

如何在pdf文件中搜索“空”页面？

在下一步中，我想使用ghostscript将这些页面转换为.tiff。如果可以在unix机器上用一个命令完成所有操作，那就太完美了

这在很大程度上取决于你所说的“文本”（来自主题行）或“空白”页面（来自正文）。它完全有可能具有再现文本形状的向量路径，或者实际上是再现字符形状的图像

你认为这些是“文本”吗？

或者你是在寻找完全没有内容的网页？我无法想象你为什么要把这些交给TIFF

对于没有文本的页面（即不使用任何PDF文本操作符），我将使用Ghostscript中的文本提取设备。从该设备输出为空的任何页面上都没有文本

然后，您可以在PDF文件上运行Ghostscript，并使用-sPageList开关处理所需的页面，然后选择一个TIFF设备以获得TIFF输出

您不能一次完成（使用未修改的重影脚本），因为您需要文本提取设备来确定哪些页面包含文本，然后使用TIFF设备来编写页面

您可以编写一个输出到TIFF的新设备，如果该设备的text_begin（）方法被调用，它只会跳过写入页面。这一步就可以完成，但这意味着要编写一个新设备（其中99%是tiff设备的复制+粘贴）并重建Ghostscript。当然，您还需要AGPL您的代码。

对不起，我说的是扫描的文档。所以没有向量。OCR认为文本的一切都是文本。我想提取每一个不显示文本的页面，但可以是图像或图章，也可以是白色的。谢谢你的回答，现在我知道我应该关注哪些设备上的ghostscript（这有点难理解）。现在，我手动找到这些页面，并使用imagemagick提取它们，这并不是太多的工作。