Python PDF文件操作（打开一个大PDF文件，查找关键字，然后保存找到的页面，然后拆分这些页面并将其合并到一个PDF中）_Python_Python 3.x_Pdf_Pdf Manipulation

Python PDF文件操作（打开一个大PDF文件，查找关键字，然后保存找到的页面，然后拆分这些页面并将其合并到一个PDF中）

python python-3.x pdf

Python PDF文件操作（打开一个大PDF文件，查找关键字，然后保存找到的页面，然后拆分这些页面并将其合并到一个PDF中）,python,python-3.x,pdf,pdf-manipulation,Python,Python 3.x,Pdf,Pdf Manipulation,我正在为我的一个朋友做一个项目。我想找到一个在多个页面上的特定关键字，它在一个大的PDF文件（40-60页及以上）的其他地方有重复项，然后将找到的关键字保存在内存中的哪个页面，然后从原始PDF文件中拆分这些页面，最后将它们合并在一起我正在考虑使用PDFMiner或PyPDF2（我也愿意接受其他建议）我已经编写了大部分代码，但我无法找到一种搜索文件并找到该关键字的有效方法，因为该关键字位于同一文件的其他位置，并确保我要从原始文件提取的数据不重复，并且所有数据都已提取提前谢谢您是否尝试在几

我正在为我的一个朋友做一个项目。我想找到一个在多个页面上的特定关键字，它在一个大的PDF文件（40-60页及以上）的其他地方有重复项，然后将找到的关键字保存在内存中的哪个页面，然后从原始PDF文件中拆分这些页面，最后将它们合并在一起

我正在考虑使用PDFMiner或PyPDF2（我也愿意接受其他建议）

我已经编写了大部分代码，但我无法找到一种搜索文件并找到该关键字的有效方法，因为该关键字位于同一文件的其他位置，并确保我要从原始文件提取的数据不重复，并且所有数据都已提取

提前谢谢

您是否尝试在几个块上拆分pdf文件，并使用多线程在每个块上搜索关键字？这应该更快。

我想尝试一下，但该程序将在一个小型内部服务器上运行，其他东西已经同时运行，我首先需要找到一种方法来提取有效数据，而不是重复数据！