Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/azure/11.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 3.x 在Python中定位并从pdf文件中提取表格_Python 3.x_Pdf_Text_Pdf Parsing - Fatal编程技术网

Python 3.x 在Python中定位并从pdf文件中提取表格

Python 3.x 在Python中定位并从pdf文件中提取表格,python-3.x,pdf,text,pdf-parsing,Python 3.x,Pdf,Text,Pdf Parsing,假设我有许多中文pdf文件,如下所示: 在文件的某些页面中,它们包含与上述模板相同的表 所以我想定位并提取这些表,然后读取为dataframe,或者将它们合并在一起并保存为excel文件 只是想知道是否可以在Python包中实现这一点?我试过使用pdfminer、tika、tabla等,但运气不佳 由于PDF格式没有表结构的内部表示,因此很难提取表进行分析。所以我认为可能有必要将这些文件转换成图像,然后在这种情况下使用图像识别 参考:

假设我有许多中文pdf文件,如下所示:

在文件的某些页面中,它们包含与上述模板相同的表

所以我想定位并提取这些表,然后读取为dataframe,或者将它们合并在一起并保存为excel文件

只是想知道是否可以在Python包中实现这一点?我试过使用
pdfminer
tika
tabla
等,但运气不佳

由于PDF格式没有表结构的内部表示,因此很难提取表进行分析。所以我认为可能有必要将这些文件转换成图像,然后在这种情况下使用图像识别

参考: