使用python将多页pdf中的每个段落提取到每个excel单元格

使用python将多页pdf中的每个段落提取到每个excel单元格,python,pdf,pypdf2,Python,Pdf,Pypdf2,我只得到数据,但没有格式 使用python将多页pdf中的每个段落提取到每个excel单元格 我有1000的多页pdf文件,提取1000的excel文件的格式。如何确定每个段落的开头和结尾 import PyPDF2 as p PDFfilename = "abc.pdf" pdfread = p.PdfFileReader(open(PDFfilename, "rb")) f = open("1.xls&q

我只得到数据,但没有格式

使用python将多页pdf中的每个段落提取到每个excel单元格

我有1000的多页pdf文件,提取1000的excel文件的格式。如何确定每个段落的开头和结尾

    import PyPDF2 as p

    PDFfilename = "abc.pdf"

    pdfread = p.PdfFileReader(open(PDFfilename, "rb"))

    f = open("1.xls", "x")
    i = 0
    while i < pdfread.getNumPages():
          Allinfo = pdfread.getPage(i)
          f.writelines(Allinfo.extractText())
          i = i + 1
      f.close()
将PyPDF2导入为p
PDFfilename=“abc.pdf”
pdfread=p.PdfFileReader(打开(PDFfilename,“rb”))
f=开放(“1.xls”、“x”)
i=0
而我
PDF是一种非常复杂的格式——也就是说,它可以将每个单词或字符作为单独的元素保留在自己的(x,y)位置——而且可能没有好的方法来识别段落。您可以尝试计算单词之间的距离,但在每个PDF中,它可能使用不同的值。请参阅PDF是非常复杂的格式-即,它可以将每个单词或字符保留为具有自己(x,y)位置的分隔元素-并且可能没有识别段落的好方法。您可以尝试计算单词之间的距离,但在每个PDF中可能使用不同的值。请参阅