Python 3.x 在Python中定位并从pdf文件中提取表格
假设我有许多中文pdf文件,如下所示: 在文件的某些页面中,它们包含与上述模板相同的表 所以我想定位并提取这些表,然后读取为dataframe,或者将它们合并在一起并保存为excel文件 只是想知道是否可以在Python包中实现这一点?我试过使用Python 3.x 在Python中定位并从pdf文件中提取表格,python-3.x,pdf,text,pdf-parsing,Python 3.x,Pdf,Text,Pdf Parsing,假设我有许多中文pdf文件,如下所示: 在文件的某些页面中,它们包含与上述模板相同的表 所以我想定位并提取这些表,然后读取为dataframe,或者将它们合并在一起并保存为excel文件 只是想知道是否可以在Python包中实现这一点?我试过使用pdfminer、tika、tabla等,但运气不佳 由于PDF格式没有表结构的内部表示,因此很难提取表进行分析。所以我认为可能有必要将这些文件转换成图像,然后在这种情况下使用图像识别 参考:
pdfminer
、tika
、tabla
等,但运气不佳
由于PDF格式没有表结构的内部表示,因此很难提取表进行分析。所以我认为可能有必要将这些文件转换成图像,然后在这种情况下使用图像识别
参考: