Python 从文档中提取页眉和页脚(每页重复的文本)
我正在使用各种python库解析pdf文档,并可以将其转换为页面列表(字符串列表)。我想自动删除页眉和页脚,它们是几乎每页都重复的子字符串(不是每页都需要)。我不想太依赖几何(比如看固定的位置)。假设没有可用的元数据 我知道Python 从文档中提取页眉和页脚(每页重复的文本),python,algorithm,Python,Algorithm,我正在使用各种python库解析pdf文档,并可以将其转换为页面列表(字符串列表)。我想自动删除页眉和页脚,它们是几乎每页都重复的子字符串(不是每页都需要)。我不想太依赖几何(比如看固定的位置)。假设没有可用的元数据 我知道difflib.SequenceMatcher类和类似的工具,但这主要适用于字符串对。但我想利用文档有很多页面这一事实,而不仅仅是进行成对比较 我对高效算法和可能的python工具(如果有的话)都感兴趣。谢谢您的提示。有一个python库PyMuPDF,它可能会帮助您解决问题
difflib.SequenceMatcher
类和类似的工具,但这主要适用于字符串对。但我想利用文档有很多页面这一事实,而不仅仅是进行成对比较
我对高效算法和可能的python工具(如果有的话)都感兴趣。谢谢您的提示。有一个python库
PyMuPDF
,它可能会帮助您解决问题。首先,它不知道任何关于页眉和页脚的信息,但您可以从中提取大量元数据字典并对其进行分析。我也遇到了同样的问题,我只想为每个页面提取pdf文件的标题。我使用了这个元数据,它包含有关文本的信息,如字体大小和字体名称。在我的例子中,与同一页面上的其他文本相比,每个标题的字体大小都更大,因此我使用这些信息进行提取。谢谢,@Sharmiko,这有时可能有用,但我主要谈论的是仅包含图像和ocr ed(不可见)文本层的扫描文档。字体信息可能取决于OCR质量和配置,但我不会太依赖ti。我对一种算法很感兴趣,它可以从100页中找到“最常重复的块”。然而,对于“数字”pdf,您的建议绝对有用。