Python 从PDF中提取页眉/页脚(以编程方式)

Python 从PDF中提取页眉/页脚(以编程方式),python,pdf,document,Python,Pdf,Document,是否可以从PDF文档中提取页眉和/或页脚 当我尝试了一些选项(包括PDFMiner、rubygempdf摘录、研究pdf格式规范)时,我开始怀疑页眉/页脚信息根本不可用 (如果可能的话,我想通过Python实现这一点,但任何其他替代方案都是可行的。)页面页眉和页脚不(至少不一定)位于与页面内容其余部分分开的某些内容部分。因此,一般来说,无法可靠地从PDF中提取页眉和页脚 不过,也可以尝试使用启发式方法来查看整个PDF内容,并尝试猜测哪些部分是页眉和/或页脚 如果您要分析的PDF是相当同质的,例如

是否可以从PDF文档中提取页眉和/或页脚

当我尝试了一些选项(包括PDFMiner、rubygempdf摘录、研究pdf格式规范)时,我开始怀疑页眉/页脚信息根本不可用


(如果可能的话,我想通过Python实现这一点,但任何其他替代方案都是可行的。)

页面页眉和页脚不(至少不一定)位于与页面内容其余部分分开的某些内容部分。因此,一般来说,无法可靠地从PDF中提取页眉和页脚

不过,也可以尝试使用启发式方法来查看整个PDF内容,并尝试猜测哪些部分是页眉和/或页脚


如果您要分析的PDF是相当同质的,例如,所有PDF都由同一个发行商生产,看起来很相似,这可能是可行的。然而,你的源PDF越是多样化,你的启发就越复杂,结果也就越不准确。

通常页眉和页脚信息只是页面内容的一部分,因此,可以像正常内容一样提取。如果不可能,可以将其作为答案发布