如何使用python从PDF检索多个表中的特定表数据_Python_Excel_Tabular_Tabula_Pdf Parsing

如何使用python从PDF检索多个表中的特定表数据

python excel

如何使用python从PDF检索多个表中的特定表数据,python,excel,tabular,tabula,pdf-parsing,Python,Excel,Tabular,Tabula,Pdf Parsing,我有100份不同银行的年度报告。所有这些年度报告的格式都相同。我想从所有100份PDF中提取损益表和资产负债表，并存储在excel文件中。使用python有什么方法可以做到这一点吗下面是在PDF中提取所有表并保存在excel文件中的代码 import tabula from tabula import wrapper from tabula import * import PyPDF2,os,time import pandas as pd filename=input("enter pdf

我有100份不同银行的年度报告。所有这些年度报告的格式都相同。我想从所有100份PDF中提取损益表和资产负债表，并存储在excel文件中。使用python有什么方法可以做到这一点吗

下面是在PDF中提取所有表并保存在excel文件中的代码

import tabula
from tabula import wrapper
from tabula import *
import PyPDF2,os,time
import pandas as pd

filename=input("enter pdf name")+".pdf"
pdf=PyPDF2.PdfFileReader(open(filename,"rb"))
pag_no=pdf.getNumPages()

for i in range(0,pag_no):
    pg=pdf.getPage(i)
    writer=PyPDF2.PdfFileWriter()
    writer.addPage(pg)
    NewPDFfilename="Page_"+str(i)+".pdf"
    with open(NewPDFfilename,"wb")as outputStream:
        writer.write(outputStream)

for i in range(0,pag_no):
    file=wrapper.convert_into('Page_'+str(i)+'.pdf,'result_'+str(i)+'.csv',output_format='csv')
    file=wrapper.convert_into('Page_'+str(i)+'.pdf,'result_'+str(i)+'.csv',output_format='xml')
    try:
        df=pd.read_csv("result_"+str(i)+".csv", sep=" ",header='none',delimiter=r"\s+")
        if(df.empty):
            print("yes")
        else:
            print("table found in --->PAGE"+str(i+1)+"and store in --->result_"+str(i)+".csv")
    except (pd.errors.EmptyDataError,FileNotFoundError):
        os.remove(r'Users\Downloads\Table-extraction-from-PDF-and-Images-master'+str(i)+'.pdf')
        os.remove(r'Users\Downloads\Table-extraction-from-PDF-and-Images-master'+str(i)+'.csv')
        pass

分享您迄今为止的尝试。这里有一个以前的答案应该会有所帮助：。你可能遇到的问题是，所有的年度报告都可能采用不同的格式。我怀疑获得一个允许您下载财务报表的API可能会更干净谢谢您的回答。但是您提供的链接是用于从PDF中提取文本的。我想提取损益表，资产负债表