如何使用R从PDF中提取数据？_R_Pdf_Web

如何使用R从PDF中提取数据？

r pdf web

如何使用R从PDF中提取数据？,r,pdf,web,R,Pdf,Web,我需要从PDF文件中提取数据。此文件是一本公共服务手册，其中每页都是关于特定服务的，其中包含包含以下信息的字段：服务名称、服务说明、步骤、文档、费用和意见。所有页面都遵循相同的模式，只更改这些字段中包含的信息我想知道是否可以使用R提取这些字段中包含的所有数据 [高亮显示的是包含信息的字段]我使用命令行Javaapplicationtabla和RversionTabulizeR从基于文本的PDF文件中提取表格数据但是，如果您的PDF实际上是一幅图像，那么这将成为一个OCR问题，需要不同的工

我需要从PDF文件中提取数据。此文件是一本公共服务手册，其中每页都是关于特定服务的，其中包含包含以下信息的字段：服务名称、服务说明、步骤、文档、费用和意见。所有页面都遵循相同的模式，只更改这些字段中包含的信息

我想知道是否可以使用R提取这些字段中包含的所有数据

[高亮显示的是包含信息的字段]

我使用命令行

Java

application

tabla

和

version

TabulizeR

从基于文本的PDF文件中提取表格数据

但是，如果您的PDF实际上是一幅图像，那么这将成为一个

OCR

问题，需要不同的工具

警告：tabla仅适用于基于文本的PDF，而不适用于扫描的文档。如果您可以在PDF查看器中单击并拖动以选择表格中的文本（即使输出是无组织的垃圾），则您的PDF是基于文本的，表格应该可以工作

请使用英语，只是为了让你的问题更容易理解！你能提供一个示例pdf文件吗？