Parsing 从PDF文件集合中提取表内容
我有一堆PDF文件——可能有数百或数千份。它们的格式不尽相同,但其中任何一个都可能有一个或多个表,其中包含我希望收集到单独数据库中的有趣信息 当然,我知道我必须写点什么来做这件事。Perl对我来说是一种选择——或许是Java。我真的不在乎什么语言,只要它是免费的(或者便宜,免费试用期以确保它符合我的目的) 我正在研究CAM::Parse(使用草莓Perl),但我不确定如何使用它从文件中定位和提取表。我想我确实喜欢Perl,但我真的希望它能可靠地工作,并且相当容易地进行字符串操作 对于这样的事情,什么是好方法?我正处于第一阶段,所以如果java(或python等)有更好的钩子,现在是了解它的好时机。一般指针好;强烈建议使用初学者代码Parsing 从PDF文件集合中提取表内容,parsing,pdf,extract,pdf-parsing,Parsing,Pdf,Extract,Pdf Parsing,我有一堆PDF文件——可能有数百或数千份。它们的格式不尽相同,但其中任何一个都可能有一个或多个表,其中包含我希望收集到单独数据库中的有趣信息 当然,我知道我必须写点什么来做这件事。Perl对我来说是一种选择——或许是Java。我真的不在乎什么语言,只要它是免费的(或者便宜,免费试用期以确保它符合我的目的) 我正在研究CAM::Parse(使用草莓Perl),但我不确定如何使用它从文件中定位和提取表。我想我确实喜欢Perl,但我真的希望它能可靠地工作,并且相当容易地进行字符串操作 对于这样的事情,
更新 我最近创建了一个示例,演示如何使用tabla命令行界面从PDF中提取一个大表格作为CSV: (单击上面的图像查看其运行。如果运行速度太快,您无法阅读所有文本,请使用“暂停”按钮(
|
-symbol)。)
它位于以下位置: