使用python根据字体大小将pdf文档裁剪成多个pdf

使用python根据字体大小将pdf文档裁剪成多个pdf,python,pdf,Python,Pdf,我想根据字体大小拆分PDF文档,但我找不到可以同时提取字体大小和拆分的库 可以提取字体大小、字符位置等信息 pyPdf可以拆分PDF文档,如果提供坐标,则可以保存在另一个PDF中,但没有提取字体大小和其他功能的机制 我尝试同时使用它们,但pdfplumber给出的字符位置与pyPdf使用的坐标不同。这就是我得到意外输出的原因 python中是否有可以同时实现这两个功能的库?或者我有没有办法使用pypdf中pdfplumber提供的位置?您看过PDFMiner吗?这允许您解析和转换。不完全确定这是

我想根据字体大小拆分PDF文档,但我找不到可以同时提取字体大小和拆分的库

可以提取字体大小、字符位置等信息

pyPdf可以拆分PDF文档,如果提供坐标,则可以保存在另一个PDF中,但没有提取字体大小和其他功能的机制

我尝试同时使用它们,但pdfplumber给出的字符位置与pyPdf使用的坐标不同。这就是我得到意外输出的原因


python中是否有可以同时实现这两个功能的库?或者我有没有办法使用pypdf中pdfplumber提供的位置?

您看过PDFMiner吗?这允许您解析和转换。不完全确定这是否有助于拆分文档,但我希望它会有帮助。我在pdfminer中找不到任何拆分文档的工具。我认为pdfminer只将pdf转换成html、txt和doc。如果我错了,请纠正我。这表明您可以:不是吗?PDFPlumber中的坐标与PyPDF中的坐标有何不同?一个从页面的左上角开始,另一个从页面的左下角开始,这样您可以在它们之间进行转换吗?是的,找到了解决方案,使用pypdf时,原点位于页面的左下角。谢谢,我能够使用pypdf和pdfplumber提供的坐标。