Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/324.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 从文档中提取页眉和页脚(每页重复的文本)_Python_Algorithm - Fatal编程技术网

Python 从文档中提取页眉和页脚(每页重复的文本)

Python 从文档中提取页眉和页脚(每页重复的文本),python,algorithm,Python,Algorithm,我正在使用各种python库解析pdf文档,并可以将其转换为页面列表(字符串列表)。我想自动删除页眉和页脚,它们是几乎每页都重复的子字符串(不是每页都需要)。我不想太依赖几何(比如看固定的位置)。假设没有可用的元数据 我知道difflib.SequenceMatcher类和类似的工具,但这主要适用于字符串对。但我想利用文档有很多页面这一事实,而不仅仅是进行成对比较 我对高效算法和可能的python工具(如果有的话)都感兴趣。谢谢您的提示。有一个python库PyMuPDF,它可能会帮助您解决问题

我正在使用各种python库解析pdf文档,并可以将其转换为页面列表(字符串列表)。我想自动删除页眉和页脚,它们是几乎每页都重复的子字符串(不是每页都需要)。我不想太依赖几何(比如看固定的位置)。假设没有可用的元数据

我知道
difflib.SequenceMatcher
类和类似的工具,但这主要适用于字符串对。但我想利用文档有很多页面这一事实,而不仅仅是进行成对比较


我对高效算法和可能的python工具(如果有的话)都感兴趣。谢谢您的提示。

有一个python库
PyMuPDF
,它可能会帮助您解决问题。首先,它不知道任何关于页眉和页脚的信息,但您可以从中提取大量元数据字典并对其进行分析。我也遇到了同样的问题,我只想为每个页面提取pdf文件的标题。我使用了这个元数据,它包含有关文本的信息,如字体大小和字体名称。在我的例子中,与同一页面上的其他文本相比,每个标题的字体大小都更大,因此我使用这些信息进行提取。

谢谢,@Sharmiko,这有时可能有用,但我主要谈论的是仅包含图像和ocr ed(不可见)文本层的扫描文档。字体信息可能取决于OCR质量和配置,但我不会太依赖ti。我对一种算法很感兴趣,它可以从100页中找到“最常重复的块”。然而,对于“数字”pdf,您的建议绝对有用。