Python 3.x 在Python中定位并从pdf文件中提取表格_Python 3.x_Pdf_Text_Pdf Parsing

Python 3.x 在Python中定位并从pdf文件中提取表格

python-3.x pdf text

Python 3.x 在Python中定位并从pdf文件中提取表格,python-3.x,pdf,text,pdf-parsing,Python 3.x,Pdf,Text,Pdf Parsing,假设我有许多中文pdf文件，如下所示：在文件的某些页面中，它们包含与上述模板相同的表所以我想定位并提取这些表，然后读取为dataframe，或者将它们合并在一起并保存为excel文件只是想知道是否可以在Python包中实现这一点？我试过使用pdfminer、tika、tabla等，但运气不佳由于PDF格式没有表结构的内部表示，因此很难提取表进行分析。所以我认为可能有必要将这些文件转换成图像，然后在这种情况下使用图像识别参考：

假设我有许多中文pdf文件，如下所示：

在文件的某些页面中，它们包含与上述模板相同的表

所以我想定位并提取这些表，然后读取为dataframe，或者将它们合并在一起并保存为excel文件

只是想知道是否可以在Python包中实现这一点？我试过使用

pdfminer

、

tika

、

tabla

等，但运气不佳

由于PDF格式没有表结构的内部表示，因此很难提取表进行分析。所以我认为可能有必要将这些文件转换成图像，然后在这种情况下使用图像识别

参考：