Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/295.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python模块,可以从一个pdf文件中删除OCRD文本层并将其移动到另一个pdf文件?_Python_Pdf - Fatal编程技术网

Python模块,可以从一个pdf文件中删除OCRD文本层并将其移动到另一个pdf文件?

Python模块,可以从一个pdf文件中删除OCRD文本层并将其移动到另一个pdf文件?,python,pdf,Python,Pdf,我有两个pdf文件,它们几乎是一样的,除了有OCR文本和没有,它们有不同的压缩 我想这样做的原因是,第一个文件的OCRD文本中存在一些错误,并且该文件使用OCRD文本覆盖相应的图像,这使我无法知道正确的文本是什么。这就是第二个文件可以帮助我的方式 我想 使第一个文件显示图像,隐藏OCRD文本,不覆盖图像 或者,将OCRD文本从第一个文件移动到第二个文件 或者,从第一个文件中删除OCR文本,然后重新对其进行OCR,因为Adobe Acrobat无法用OCR文本重新对pdf文件进行OCR 因此,

我有两个pdf文件,它们几乎是一样的,除了有OCR文本和没有,它们有不同的压缩

我想这样做的原因是,第一个文件的OCRD文本中存在一些错误,并且该文件使用OCRD文本覆盖相应的图像,这使我无法知道正确的文本是什么。这就是第二个文件可以帮助我的方式

我想

  • 使第一个文件显示图像,隐藏OCRD文本,不覆盖图像

  • 或者,将OCRD文本从第一个文件移动到第二个文件

  • 或者,从第一个文件中删除OCR文本,然后重新对其进行OCR,因为Adobe Acrobat无法用OCR文本重新对pdf文件进行OCR

因此,我想知道是否有一个Python模块可以将OCRD文本层从第一个文件移动到第二个文件,同时将OCRD文本层从第一个文件中移除

如果没有,哪些语言可能有这样的库


谢谢

查看pdfminer;这并不是一个用户友好的API,但您应该能够浏览PDF结构并删除阻碍的文本。你可以带着具体的问题回来


但是如果只是一个隐藏OCR的问题,你可以在Acrobat中打开文件来隐藏它;IIRC它可以选择只显示OCR,只显示背景,或同时显示两者

您可以使用
pdftk
尝试一些东西,即使它不是Python。有可能看到两个这样的PDF文件吗?@lserni:updated。请看我的帖子。我找不到如何使用pdftk实现这一点。谢谢你,如果你知道如何。堆栈溢出不是一个图书馆购物问题的好网站;问题应该用一个单一的、客观的答案来回答,而对于“X存在哪些库?”你可能不想看,但由于我不经常访问那个网站,我不能告诉你这是否是一个适合他们的问题;阅读他们的帮助。如果没有,论坛、邮件列表、聊天室等通常都适合主观问题。谢谢。但我不知道pdfminer如何将ocred文本从一个pdf移动到另一个pdf,并从第一个pdf中删除ocred文本。pdfminer在提取内容方面非常出色。你应该能够操纵这些结构并(iirc)再次写出它们,但我的重点是查看图像下的内容——我看到了一个简单的脚本,它将写出它找到的所有图像,这对你来说已经足够了,因为每个OCR页面都是一个图像。如果您想要更强大的能力来生成自己的文档,请查看ReportLab,我从未使用过它,但它似乎是使用python生成PDF的最佳解决方案。如何使用
pdfminer.six从PDF中删除OCR文本?任何代码片段都会有帮助。对不起,我已经多年没有玩过这个了。有人需要玩弄它。。你为什么不试一下,当你尽你所能的时候,问一个关于你的情况的新问题。