Python 3.x 从Python中的pdf文件中提取固定大小和位置表

Python 3.x 从Python中的pdf文件中提取固定大小和位置表,python-3.x,text-extraction,pdfminer,python-camelot,excalibur-py,Python 3.x,Text Extraction,Pdfminer,Python Camelot,Excalibur Py,假设我有许多类似的pdf文件,这些文件来自: 我想提取下表并另存为excel文件: 我可以用软件包手动提取表格和保存excel文件 在使用pip3安装Excalibur后,我使用以下方法初始化元数据数据库: $excalibur initdb 然后使用以下命令启动Web服务器: $excalibur Web服务器 然后去http://localhost:5000 并开始从PDF中提取表格数据 我想知道是否有可能使用python脚本为多个pdf文件自动执行此操作,这些文件包包括、、等,因为对于同

假设我有许多类似的pdf文件,这些文件来自:

我想提取下表并另存为excel文件:

我可以用软件包手动提取表格和保存excel文件

在使用pip3安装Excalibur后,我使用以下方法初始化元数据数据库:

$excalibur initdb

然后使用以下命令启动Web服务器:

$excalibur Web服务器

然后去http://localhost:5000 并开始从PDF中提取表格数据

我想知道是否有可能使用python脚本为多个pdf文件自动执行此操作,这些文件包包括、、等,因为对于同一个城市的报告,表的大小和位置是固定的

您可以从下载其他报告文件


非常感谢。使用Camelot,您可以构建如下管道:

import camelot

files_list=['FIRST_PATH','SECOND_PATH',...]
regions=['REGION_COORDINATES_1', 'REGION_COORDINATES_2',...]

for filepath in files_list:
    tables=camelot.read_pdf(filepath, pages='1-end', table_regions=regions)
    tables.export('tables.xls', f='excel')
当您知道表格在页面内的大致位置时,应使用table_regions参数;如果您知道表格的确切位置,则应使用表格区域


您可以在中阅读有关这些参数和其他主题的更多信息。

谢谢,请问如何从pdf文件中找到表区域?您可以使用可视化调试()。否则,如果尚未提取表格,则可以通过
table.\u bbox
获取坐标。