Python 3.x 从Python中的pdf文件中提取固定大小和位置表_Python 3.x_Text Extraction_Pdfminer_Python Camelot_Excalibur Py

Python 3.x 从Python中的pdf文件中提取固定大小和位置表

python-3.x

Python 3.x 从Python中的pdf文件中提取固定大小和位置表,python-3.x,text-extraction,pdfminer,python-camelot,excalibur-py,Python 3.x,Text Extraction,Pdfminer,Python Camelot,Excalibur Py,假设我有许多类似的pdf文件，这些文件来自：我想提取下表并另存为excel文件：我可以用软件包手动提取表格和保存excel文件在使用pip3安装Excalibur后，我使用以下方法初始化元数据数据库： $excalibur initdb 然后使用以下命令启动Web服务器： $excalibur Web服务器然后去http://localhost:5000 并开始从PDF中提取表格数据我想知道是否有可能使用python脚本为多个pdf文件自动执行此操作，这些文件包包括、、等，因为对于同

假设我有许多类似的pdf文件，这些文件来自：

我想提取下表并另存为excel文件：

我可以用软件包手动提取表格和保存excel文件

在使用pip3安装Excalibur后，我使用以下方法初始化元数据数据库：

$excalibur initdb

然后使用以下命令启动Web服务器：

$excalibur Web服务器

然后去http://localhost:5000 并开始从PDF中提取表格数据

我想知道是否有可能使用python脚本为多个pdf文件自动执行此操作，这些文件包包括、、等，因为对于同一个城市的报告，表的大小和位置是固定的

您可以从下载其他报告文件

非常感谢。使用Camelot，您可以构建如下管道：

import camelot

files_list=['FIRST_PATH','SECOND_PATH',...]
regions=['REGION_COORDINATES_1', 'REGION_COORDINATES_2',...]

for filepath in files_list:
    tables=camelot.read_pdf(filepath, pages='1-end', table_regions=regions)
    tables.export('tables.xls', f='excel')

当您知道表格在页面内的大致位置时，应使用table_regions参数；如果您知道表格的确切位置，则应使用表格区域

您可以在中阅读有关这些参数和其他主题的更多信息。

谢谢，请问如何从pdf文件中找到表区域？您可以使用可视化调试（）。否则，如果尚未提取表格，则可以通过

table.\u bbox

获取坐标。