使用python将多页pdf中的每个段落提取到每个excel单元格_Python_Pdf_Pypdf2

使用python将多页pdf中的每个段落提取到每个excel单元格

python pdf

使用python将多页pdf中的每个段落提取到每个excel单元格,python,pdf,pypdf2,Python,Pdf,Pypdf2,我只得到数据，但没有格式使用python将多页pdf中的每个段落提取到每个excel单元格我有1000的多页pdf文件，提取1000的excel文件的格式。如何确定每个段落的开头和结尾 import PyPDF2 as p PDFfilename = "abc.pdf" pdfread = p.PdfFileReader(open(PDFfilename, "rb")) f = open("1.xls&q

我只得到数据，但没有格式

使用python将多页pdf中的每个段落提取到每个excel单元格

我有1000的多页pdf文件，提取1000的excel文件的格式。如何确定每个段落的开头和结尾

    import PyPDF2 as p

    PDFfilename = "abc.pdf"

    pdfread = p.PdfFileReader(open(PDFfilename, "rb"))

    f = open("1.xls", "x")
    i = 0
    while i < pdfread.getNumPages():
          Allinfo = pdfread.getPage(i)
          f.writelines(Allinfo.extractText())
          i = i + 1
      f.close()

将PyPDF2导入为p
PDFfilename=“abc.pdf”
pdfread=p.PdfFileReader（打开（PDFfilename，“rb”））
f=开放（“1.xls”、“x”）
i=0
而我

PDF是一种非常复杂的格式——也就是说，它可以将每个单词或字符作为单独的元素保留在自己的（x，y）位置——而且可能没有好的方法来识别段落。您可以尝试计算单词之间的距离，但在每个PDF中，它可能使用不同的值。请参阅PDF是非常复杂的格式-即，它可以将每个单词或字符保留为具有自己（x，y）位置的分隔元素-并且可能没有识别段落的好方法。您可以尝试计算单词之间的距离，但在每个PDF中可能使用不同的值。请参阅