Parsing 从PDF文件集合中提取表内容_Parsing_Pdf_Extract_Pdf Parsing

Parsing 从PDF文件集合中提取表内容

parsing pdf

Parsing 从PDF文件集合中提取表内容,parsing,pdf,extract,pdf-parsing,Parsing,Pdf,Extract,Pdf Parsing,我有一堆PDF文件——可能有数百或数千份。它们的格式不尽相同，但其中任何一个都可能有一个或多个表，其中包含我希望收集到单独数据库中的有趣信息当然，我知道我必须写点什么来做这件事。Perl对我来说是一种选择——或许是Java。我真的不在乎什么语言，只要它是免费的（或者便宜，免费试用期以确保它符合我的目的）我正在研究CAM:：Parse（使用草莓Perl），但我不确定如何使用它从文件中定位和提取表。我想我确实喜欢Perl，但我真的希望它能可靠地工作，并且相当容易地进行字符串操作对于这样的事情，

我有一堆PDF文件——可能有数百或数千份。它们的格式不尽相同，但其中任何一个都可能有一个或多个表，其中包含我希望收集到单独数据库中的有趣信息

当然，我知道我必须写点什么来做这件事。Perl对我来说是一种选择——或许是Java。我真的不在乎什么语言，只要它是免费的（或者便宜，免费试用期以确保它符合我的目的）

我正在研究CAM:：Parse（使用草莓Perl），但我不确定如何使用它从文件中定位和提取表。我想我确实喜欢Perl，但我真的希望它能可靠地工作，并且相当容易地进行字符串操作

对于这样的事情，什么是好方法？我正处于第一阶段，所以如果java（或python等）有更好的钩子，现在是了解它的好时机。一般指针好；强烈建议使用初学者代码

PDF格式从一开始就（20多年前）从未打算成为可提取、有意义的结构化数据的宿主

它的目的是使文本、图像和图表在文档中得到可靠的视觉表现——一种数字纸张（也可以通过打印可靠地转换为真实纸张）。只是在后来的开发中添加了更多的功能，这将有助于再次提取数据（谷歌用于标记PDF）

有关从PDF中抓取数据表时出现的一些问题示例，请参阅本文：

与我上面的观点“1”相矛盾，现在我要说的是：对于从PDF中提取表格数据（除非是扫描页面）的一系列工具，它们每周都在不断改进，请参见以下链接：

所以：去找塔布拉。如果有任何工具可以做你想做的，在这个时候tabla可能是最好的工作之一

更新我最近创建了一个示例，演示如何使用tabla命令行界面从PDF中提取一个大表格作为CSV：

（单击上面的图像查看其运行。如果运行速度太快，您无法阅读所有文本，请使用“暂停”按钮（|
-symbol）。）
它位于以下位置：

您对PDF的描述可能包含有趣的信息，但格式可能不同，这表明您对所拥有的数据一无所知。在开始PDF文本提取项目之前，请尝试分析您必须处理好的数据，以便正确制定您的需求。上面评论中建议的库不推荐使用。对于有这种需求的人，你应该使用这个新的库：它只适用于基于文本的pdf文件，而不适用于图像。有什么类似的东西可以从pdf图像中提取数据吗？@Sundeep:当然，它只能适用于基于文本的pdf文件。如果要从图像中提取表格，必须首先尝试对图像运行OCR（光学字符识别）过程，然后对文本应用表格提取。最终结果的质量在很大程度上取决于OCR步骤的成功。顺便说一句，感谢您提供的信息，我正在寻找能够做到这一点的工具@KurtPfeifle@Sundeep：您可以开始查看此处提到的工具：