Python 快速PDF拆分器库

Python 快速PDF拆分器库,python,c,pdf,pypdf,Python,C,Pdf,Pypdf,pyPdf是一个很好的用于拆分、合并PDF文件的库。 我正在使用它将pdf文档拆分为1页文档。pyPdf是纯python,在保存提取的页面时,PdfielWriter对象的_sweepIndirectReferences()方法花费了大量时间。我需要性能更好的东西。我尝试过使用多线程,但由于大部分时间都花在python代码中,所以GIL并没有提高速度(它实际上运行得比较慢) 是否有任何用c编写的库提供相同的功能?或者是否有人对如何提高性能有好的想法(除了为我要拆分的每个pdf文件生成一个新流程之

pyPdf是一个很好的用于拆分、合并PDF文件的库。 我正在使用它将pdf文档拆分为1页文档。pyPdf是纯python,在保存提取的页面时,PdfielWriter对象的_sweepIndirectReferences()方法花费了大量时间。我需要性能更好的东西。我尝试过使用多线程,但由于大部分时间都花在python代码中,所以GIL并没有提高速度(它实际上运行得比较慢)

是否有任何用c编写的库提供相同的功能?或者是否有人对如何提高性能有好的想法(除了为我要拆分的每个pdf文件生成一个新流程之外)

先谢谢你

跟进。 指向两个命令行解决方案的链接,这些解决方案有时比pyPDF更快:

我修改了pyPDF PdfWriter类以跟踪在_sweepIndirectReferences()方法上花费了多少时间。如果时间太长(现在我使用神奇的3秒值),那么我会通过从python调用ghostscript来恢复使用ghostscript


谢谢你的回答。(codelogic的xpdf参考资料让我寻找了一种不同的方法)

pdfLaTex可以进行大量PDF管理,而且速度非常快

我用它来处理一些相当复杂的流程。TeX语言对编程来说确实是陌生的,但是编写python脚本生成所需的LaTex布局并对其进行处理很容易。

是一种用于PDF处理的快速、开源命令行工具


也是值得一提的,因为它是GPL,用C++编写。源代码模块化良好,允许编写命令行工具

您尝试过与pyPdf一起使用吗?

它必须是python吗?我的纯Perl库在附加和删除PDF文档页面方面非常快。如果可能的话,它可以节省最后的扫描时间。

我需要分解pdf文件。如果我理解正确,mbtPdfAsm可以组装PDF。它可以用于组装和分解PDF。我的64位ubuntu安装中没有psyco