Parsing 从PDF文件集合中提取表内容

Parsing 从PDF文件集合中提取表内容,parsing,pdf,extract,pdf-parsing,Parsing,Pdf,Extract,Pdf Parsing,我有一堆PDF文件——可能有数百或数千份。它们的格式不尽相同,但其中任何一个都可能有一个或多个表,其中包含我希望收集到单独数据库中的有趣信息 当然,我知道我必须写点什么来做这件事。Perl对我来说是一种选择——或许是Java。我真的不在乎什么语言,只要它是免费的(或者便宜,免费试用期以确保它符合我的目的) 我正在研究CAM::Parse(使用草莓Perl),但我不确定如何使用它从文件中定位和提取表。我想我确实喜欢Perl,但我真的希望它能可靠地工作,并且相当容易地进行字符串操作 对于这样的事情,

我有一堆PDF文件——可能有数百或数千份。它们的格式不尽相同,但其中任何一个都可能有一个或多个表,其中包含我希望收集到单独数据库中的有趣信息

当然,我知道我必须写点什么来做这件事。Perl对我来说是一种选择——或许是Java。我真的不在乎什么语言,只要它是免费的(或者便宜,免费试用期以确保它符合我的目的)

我正在研究CAM::Parse(使用草莓Perl),但我不确定如何使用它从文件中定位和提取表。我想我确实喜欢Perl,但我真的希望它能可靠地工作,并且相当容易地进行字符串操作

对于这样的事情,什么是好方法?我正处于第一阶段,所以如果java(或python等)有更好的钩子,现在是了解它的好时机。一般指针好;强烈建议使用初学者代码

  • PDF格式从一开始就(20多年前)从未打算成为可提取、有意义的结构化数据的宿主

  • 它的目的是使文本、图像和图表在文档中得到可靠的视觉表现——一种数字纸张(也可以通过打印可靠地转换为真实纸张)。只是在后来的开发中添加了更多的功能,这将有助于再次提取数据(谷歌用于标记PDF)

  • 有关从PDF中抓取数据表时出现的一些问题示例,请参阅本文:


  • 与我上面的观点“1”相矛盾,现在我要说的是:对于从PDF中提取表格数据(除非是扫描页面)的一系列工具,它们每周都在不断改进,请参见以下链接:

  • 所以:去找塔布拉。如果有任何工具可以做你想做的,在这个时候tabla可能是最好的工作之一


    更新 我最近创建了一个示例,演示如何使用tabla命令行界面从PDF中提取一个大表格作为CSV:

    (单击上面的图像查看其运行。如果运行速度太快,您无法阅读所有文本,请使用“暂停”按钮(
    |
    -symbol)。)

    它位于以下位置:


    您对PDF的描述可能包含有趣的信息,但格式可能不同,这表明您对所拥有的数据一无所知。在开始PDF文本提取项目之前,请尝试分析您必须处理好的数据,以便正确制定您的需求。上面评论中建议的库不推荐使用。对于有这种需求的人,你应该使用这个新的库:它只适用于基于文本的pdf文件,而不适用于图像。有什么类似的东西可以从pdf图像中提取数据吗?@Sundeep:当然,它只能适用于基于文本的pdf文件。如果要从图像中提取表格,必须首先尝试对图像运行OCR(光学字符识别)过程,然后对文本应用表格提取。最终结果的质量在很大程度上取决于OCR步骤的成功。顺便说一句,感谢您提供的信息,我正在寻找能够做到这一点的工具@KurtPfeifle@Sundeep:您可以开始查看此处提到的工具: