使用python将多页pdf中的每个段落提取到每个excel单元格
我只得到数据,但没有格式 使用python将多页pdf中的每个段落提取到每个excel单元格 我有1000的多页pdf文件,提取1000的excel文件的格式。如何确定每个段落的开头和结尾使用python将多页pdf中的每个段落提取到每个excel单元格,python,pdf,pypdf2,Python,Pdf,Pypdf2,我只得到数据,但没有格式 使用python将多页pdf中的每个段落提取到每个excel单元格 我有1000的多页pdf文件,提取1000的excel文件的格式。如何确定每个段落的开头和结尾 import PyPDF2 as p PDFfilename = "abc.pdf" pdfread = p.PdfFileReader(open(PDFfilename, "rb")) f = open("1.xls&q
import PyPDF2 as p
PDFfilename = "abc.pdf"
pdfread = p.PdfFileReader(open(PDFfilename, "rb"))
f = open("1.xls", "x")
i = 0
while i < pdfread.getNumPages():
Allinfo = pdfread.getPage(i)
f.writelines(Allinfo.extractText())
i = i + 1
f.close()
将PyPDF2导入为p
PDFfilename=“abc.pdf”
pdfread=p.PdfFileReader(打开(PDFfilename,“rb”))
f=开放(“1.xls”、“x”)
i=0
而我
PDF是一种非常复杂的格式——也就是说,它可以将每个单词或字符作为单独的元素保留在自己的(x,y)位置——而且可能没有好的方法来识别段落。您可以尝试计算单词之间的距离,但在每个PDF中,它可能使用不同的值。请参阅PDF是非常复杂的格式-即,它可以将每个单词或字符保留为具有自己(x,y)位置的分隔元素-并且可能没有识别段落的好方法。您可以尝试计算单词之间的距离,但在每个PDF中可能使用不同的值。请参阅