搜索PDF中没有文本的页面

搜索PDF中没有文本的页面,pdf,text,ocr,ghostscript,Pdf,Text,Ocr,Ghostscript,如何在pdf文件中搜索“空”页面? 在下一步中,我想使用ghostscript将这些页面转换为.tiff。如果可以在unix机器上用一个命令完成所有操作,那就太完美了 这在很大程度上取决于你所说的“文本”(来自主题行)或“空白”页面(来自正文)。它完全有可能具有再现文本形状的向量路径,或者实际上是再现字符形状的图像 你认为这些是“文本”吗? 或者你是在寻找完全没有内容的网页?我无法想象你为什么要把这些交给TIFF 对于没有文本的页面(即不使用任何PDF文本操作符),我将使用Ghostscript

如何在pdf文件中搜索“空”页面?
在下一步中,我想使用ghostscript将这些页面转换为.tiff。如果可以在unix机器上用一个命令完成所有操作,那就太完美了

这在很大程度上取决于你所说的“文本”(来自主题行)或“空白”页面(来自正文)。它完全有可能具有再现文本形状的向量路径,或者实际上是再现字符形状的图像

你认为这些是“文本”吗?

或者你是在寻找完全没有内容的网页?我无法想象你为什么要把这些交给TIFF

对于没有文本的页面(即不使用任何PDF文本操作符),我将使用Ghostscript中的文本提取设备。从该设备输出为空的任何页面上都没有文本

然后,您可以在PDF文件上运行Ghostscript,并使用-sPageList开关处理所需的页面,然后选择一个TIFF设备以获得TIFF输出

您不能一次完成(使用未修改的重影脚本),因为您需要文本提取设备来确定哪些页面包含文本,然后使用TIFF设备来编写页面


您可以编写一个输出到TIFF的新设备,如果该设备的text_begin()方法被调用,它只会跳过写入页面。这一步就可以完成,但这意味着要编写一个新设备(其中99%是tiff设备的复制+粘贴)并重建Ghostscript。当然,您还需要AGPL您的代码。

对不起,我说的是扫描的文档。所以没有向量。OCR认为文本的一切都是文本。我想提取每一个不显示文本的页面,但可以是图像或图章,也可以是白色的。谢谢你的回答,现在我知道我应该关注哪些设备上的ghostscript(这有点难理解)。现在,我手动找到这些页面,并使用imagemagick提取它们,这并不是太多的工作。