Pdftotext 从pdf文件中删除页码、页眉和页脚_Pdftotext

Pdftotext 从pdf文件中删除页码、页眉和页脚

Pdftotext 从pdf文件中删除页码、页眉和页脚,pdftotext,Pdftotext,我想解析一个pdf文件，因为我正在使用pdftotext实用程序将pdf文件转换为文本文件，现在我想从文本文件中删除页码、页眉和页脚我正在使用以下语法转换pdf文件： pdftotext -layout input.pdf output.txt 有人能帮我吗？搜索显示有页码或页眉、页脚的图案！例如，当我使用pdftotext将pdf文件转换为文本时，我意识到文本中的数字页是独立的，因此我使用正则表达式替换它们，如下所示： for root, dirs, files in os.walk(sr

我想解析一个pdf文件，因为我正在使用

pdftotext

实用程序将pdf文件转换为文本文件，现在我想从文本文件中删除页码、页眉和页脚

我正在使用以下语法转换pdf文件：

pdftotext -layout input.pdf output.txt

有人能帮我吗？

搜索显示有页码或页眉、页脚的图案！例如，当我使用pdftotext将pdf文件转换为文本时，我意识到文本中的数字页是独立的，因此我使用正则表达式替换它们，如下所示：

for root, dirs, files in os.walk(src, topdown=False):
    for name in files:
        if name.endswith('.txt'):
            with open(os.path.join(root, name), "r") as fin:
                 data = fin.read()    
                 new_text = re.sub(r'\n\d+\n\s','',data,re.DOTALL)

因为每个页码都在一行中（没有任何其他文本），在这个数字之后我有了一个新行。我对pdf文件的页眉和页脚也做了同样的处理。

您需要使用params-H-W-y-x进行裁剪，至少使用-H-W-y

例如：

pdftotext -y 80 -H 650 -W 1000 -nopgbrk -eol unix example.pdf


-y 80   -> crop 80 pixels after the top of file (remove header);
-H 650  -> crop 650 pixels after the -y has cropped (remove footer);
-W 1000 -> hight value to crop nothing (need especify something);

您需要根据每个PDF调整-y和-H，有时减少-y并增加-H以适应页眉和页脚

如何计算像素数？@TatianaP默认设置为72 DPI（每英寸点数），因此您可以以英寸为单位测量并乘以72。如果您在windows 10上，您知道如何使用它吗？@RaghavGupta@ReinaldoGil我已经检查了所有与此相关的链接。不幸的是，问题更多地集中在下载我已经下载的pdftotext上，他们提到的一些解决方案现在不起作用。我已经找到了使用

pdfplumber

的解决方案，这是一个更好的实用程序，可以完全控制页面