Python 有没有办法从大量pdf文件中自动提取特定数据并将其添加到excel工作表中?

Python 有没有办法从大量pdf文件中自动提取特定数据并将其添加到excel工作表中?,python,vba,excel,pdf,Python,Vba,Excel,Pdf,我必须定期查看pdf文件列表,搜索特定数据,并将其添加到excel表格中,以备日后查看。由于每月pdf文件的数量约为50个,手动操作既耗时又令人沮丧 这个过程可以在windows中通过python或任何其他脚本语言实现自动化吗?我需要有一个文件夹中的所有pdf文件,并运行脚本,这将生成一个excel表与所有数据添加。我使用的pdf文件是表格格式的,并且具有类似的结构 您可以使用Python从PDF中提取数据 或者,您可以使用属于是的一部分的pdftotext。不,也许吧 这里的问题不是从PDF文

我必须定期查看pdf文件列表,搜索特定数据,并将其添加到excel表格中,以备日后查看。由于每月pdf文件的数量约为50个,手动操作既耗时又令人沮丧

这个过程可以在windows中通过python或任何其他脚本语言实现自动化吗?我需要有一个文件夹中的所有pdf文件,并运行脚本,这将生成一个excel表与所有数据添加。我使用的pdf文件是表格格式的,并且具有类似的结构

您可以使用Python从PDF中提取数据


或者,您可以使用属于

是的一部分的
pdftotext
。不,也许吧

这里的问题不是从PDF文档中提取内容。提取内容几乎总是可能的,而且有很多工具可用于从PDF文档中提取内容。文本,图像,任何你需要的

主要问题(以及“否”或“可能”的原因)是PDF通常不是结构化文件格式。它不关心列、段落、表格、句子甚至单词。在一般情况下,它只关心页面上特定位置的字符

这意味着,在一般情况下,您不能查询PDF文档并要求它查找每一段或第五段中的第三句话。您可以要求库获取所有文本或特定位置的所有文本。然后你必须希望图书馆能够以清晰的格式提取你需要的文本。因为你甚至不必从PDF文件中复制、粘贴或其他额外的可理解字符。许多PDF文件甚至没有包含足够的信息

所以。。。如果您有一个特定类型的文档,并且可以使用特定的提取引擎测试它的行为是否可以预测,那么可以从PDF文件中提取信息

如果您收到的PDF文件一直不同,或者页面上的布局每次都完全不同,那么答案可能是您无法可靠地提取所需的信息

作为旁注:
有一些特定类型的PDF文档比其他文档更容易处理,所以如果你幸运的话,这可能会让你的生活更轻松。两个例子:

  • 事实上,许多PDF文件包含文本信息,因此可以以清晰的方式提取文本信息。甚至需要以这种方式创建符合某些标准(如PDF/A-1a、PDF/A-2a或PDF/A-2u等)的PDF文件

  • 一些PDF文件被“标记”,这意味着它们包含额外的结构信息,允许您以更简单、更有意义的方式提取信息。这种结构实际上可以识别段落、图像、表格等,如果标签做得好,可以使内容提取工作更容易


  • 答案是肯定的,看看这个VBA:你将能够检测到所有的文件,只打开pdf,然后得到里面的信息!