如何使用R从PDF中提取数据?

如何使用R从PDF中提取数据?,r,pdf,web,R,Pdf,Web,我需要从PDF文件中提取数据。此文件是一本公共服务手册,其中每页都是关于特定服务的,其中包含包含以下信息的字段:服务名称、服务说明、步骤、文档、费用和意见。所有页面都遵循相同的模式,只更改这些字段中包含的信息 我想知道是否可以使用R提取这些字段中包含的所有数据 [高亮显示的是包含信息的字段]我使用命令行Javaapplicationtabla和RversionTabulizeR从基于文本的PDF文件中提取表格数据 但是,如果您的PDF实际上是一幅图像,那么这将成为一个OCR问题,需要不同的工

我需要从PDF文件中提取数据。此文件是一本公共服务手册,其中每页都是关于特定服务的,其中包含包含以下信息的字段:服务名称、服务说明、步骤、文档、费用和意见。所有页面都遵循相同的模式,只更改这些字段中包含的信息

我想知道是否可以使用R提取这些字段中包含的所有数据


[高亮显示的是包含信息的字段]

我使用命令行
Java
application
tabla
R
version
TabulizeR
从基于文本的PDF文件中提取表格数据

但是,如果您的PDF实际上是一幅图像,那么这将成为一个
OCR
问题,需要不同的工具

警告:tabla仅适用于基于文本的PDF,而不适用于扫描的文档。如果您可以在PDF查看器中单击并拖动以选择表格中的文本(即使输出是无组织的垃圾),则您的PDF是基于文本的,表格应该可以工作


请使用英语,只是为了让你的问题更容易理解!你能提供一个示例pdf文件吗?