Warning: file_get_contents(/data/phpspider/zhask/data//catemap/8/python-3.x/15.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python PDF文件操作(打开一个大PDF文件,查找关键字,然后保存找到的页面,然后拆分这些页面并将其合并到一个PDF中)_Python_Python 3.x_Pdf_Pdf Manipulation - Fatal编程技术网

Python PDF文件操作(打开一个大PDF文件,查找关键字,然后保存找到的页面,然后拆分这些页面并将其合并到一个PDF中)

Python PDF文件操作(打开一个大PDF文件,查找关键字,然后保存找到的页面,然后拆分这些页面并将其合并到一个PDF中),python,python-3.x,pdf,pdf-manipulation,Python,Python 3.x,Pdf,Pdf Manipulation,我正在为我的一个朋友做一个项目。 我想找到一个在多个页面上的特定关键字,它在一个大的PDF文件(40-60页及以上)的其他地方有重复项,然后将找到的关键字保存在内存中的哪个页面,然后从原始PDF文件中拆分这些页面,最后将它们合并在一起 我正在考虑使用PDFMiner或PyPDF2(我也愿意接受其他建议) 我已经编写了大部分代码,但我无法找到一种搜索文件并找到该关键字的有效方法,因为该关键字位于同一文件的其他位置,并确保我要从原始文件提取的数据不重复,并且所有数据都已提取 提前谢谢 您是否尝试在几

我正在为我的一个朋友做一个项目。 我想找到一个在多个页面上的特定关键字,它在一个大的PDF文件(40-60页及以上)的其他地方有重复项,然后将找到的关键字保存在内存中的哪个页面,然后从原始PDF文件中拆分这些页面,最后将它们合并在一起

我正在考虑使用PDFMinerPyPDF2(我也愿意接受其他建议)

我已经编写了大部分代码,但我无法找到一种搜索文件并找到该关键字的有效方法,因为该关键字位于同一文件的其他位置,并确保我要从原始文件提取的数据不重复,并且所有数据都已提取


提前谢谢

您是否尝试在几个块上拆分pdf文件,并使用多线程在每个块上搜索关键字?这应该更快。

我想尝试一下,但该程序将在一个小型内部服务器上运行,其他东西已经同时运行,我首先需要找到一种方法来提取有效数据,而不是重复数据!