Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/email/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 将PDF文件拆分为段落_Python_Pdf_Split_Paragraph - Fatal编程技术网

Python 将PDF文件拆分为段落

Python 将PDF文件拆分为段落,python,pdf,split,paragraph,Python,Pdf,Split,Paragraph,我有一个关于pdf文件拆分的问题。基本上,我有一个pdf文件的集合,我想根据段落来拆分这些文件。因此,pdf文件的每个段落都是一个独立的文件。如果您能帮助我,我将不胜感激,最好是用Python,但如果不可能,任何语言都可以 您可以使用pdftotext对于上述内容,将其包装在python子流程中。或者,您可以使用其他一些已经隐式执行此操作的库,如textract。下面是一个简单的例子,注意:我使用了4个空格作为分隔符将文本转换为段落列表,您可能需要使用不同的技术 import re import

我有一个关于pdf文件拆分的问题。基本上,我有一个pdf文件的集合,我想根据段落来拆分这些文件。因此,pdf文件的每个段落都是一个独立的文件。如果您能帮助我,我将不胜感激,最好是用Python,但如果不可能,任何语言都可以

您可以使用pdftotext对于上述内容,将其包装在python子流程中。或者,您可以使用其他一些已经隐式执行此操作的库,如textract。下面是一个简单的例子,注意:我使用了4个空格作为分隔符将文本转换为段落列表,您可能需要使用不同的技术

import re
import textract
#read the content of pdf as text
text = textract.process('file_name.pdf')
#use four space as paragraph delimiter to convert the text into list of paragraphs.
print re.split('\s{4,}',text)

您计划使用python从PDF中提取文本的哪些内容?pdf2text也可以使用。我目前正在编写一个程序,该程序使用子进程调用来使用pdftotext解析PDF。它非常有用:@Radan我想计算段落之间的相似性。所有的pdf文件都由多个段落组成,我想看看这些段落之间有多相似。但首先我需要将pdf文件拆分为段落。直接转换为文本会丢失很多信息,转换有很多参数,具体取决于您使用的软件包。但是如果你选择访问PDF结构,我发现pymupdf是一个很好的选择,这里有一篇文章解释了如何在提取过程中使用该结构获取更多信息: