PDF表格对象列表转换为Python中的csv格式
我正试图通过以下pdf文件中的数据表,在第149-157页中使用相同的列名,按行添加表来构建面板数据库: 以下是我当前使用的代码:PDF表格对象列表转换为Python中的csv格式,python,dataframe,csv,pdf,tabula,Python,Dataframe,Csv,Pdf,Tabula,我正试图通过以下pdf文件中的数据表,在第149-157页中使用相同的列名,按行添加表来构建面板数据库: 以下是我当前使用的代码: !pip install tabula-py !pip install pandas import pandas as pd import tabula from google.colab import files def getLocalFiles(): _files = files.upload() if len(_files) >0:
!pip install tabula-py
!pip install pandas
import pandas as pd
import tabula
from google.colab import files
def getLocalFiles():
_files = files.upload()
if len(_files) >0:
for k,v in _files.items():
open(k,'wb').write(v)
getLocalFiles()
#directory path
!ls
#Reading pdf tables
file = "bubbles.pdf"
path = 'bubbles.pdf'
tables = tabula.read_pdf(path, pages = [149,150,151,152,153,154,155,156,157], columns= (1,2,3,4,5,6,7))
print(tables)
#passing to csv format
from pandas import DataFrame
df=pd.DataFrame(page_1)
print(df)
df.to_csv('test.csv', index= False)
这是输出数据:
我可以用哪种方式附加所有pdf表格?,
提前感谢对于这个问题不太确定,但是pd.concat(dfs,axis=0)可能会有帮助。对于这个问题不太确定,但是pd.concat(dfs,axis=0)可能会有帮助。