就像从web上抓取数据一样,无论是从html还是json,在PDF中使用R也可以这样做吗?

就像从web上抓取数据一样,无论是从html还是json,在PDF中使用R也可以这样做吗?,r,pdf,pdf-scraping,R,Pdf,Pdf Scraping,我想将研究文章(pdf文件)中的表格和类似表格的数据导入R 例如: 这里以pdf为例。简单的表格开始。 在pdf文件的第6页,我拍摄了一个屏幕截图来理解这个场景 如何提取该表?“如何提取该表?”难度很大。1.并非所有PDF中的所有文本都是“默认”可提取的。有些可能不是文本,有些可能没有正确编码,有些可能编码不好。2.文本顺序可能不是您期望的。3.PDF中没有“表格”和“选项卡”的概念。(仅供参考,您的示例PDF中的这张表摘录得很好。但这只是巧合。)。。。4.由于PDF规范中没有“表格”的概念,您

我想将研究文章(pdf文件)中的表格和类似表格的数据导入R

例如:

这里以pdf为例。简单的表格开始。 在pdf文件的第6页,我拍摄了一个屏幕截图来理解这个场景


如何提取该表?

“如何提取该表?”难度很大。1.并非所有PDF中的所有文本都是“默认”可提取的。有些可能不是文本,有些可能没有正确编码,有些可能编码不好。2.文本顺序可能不是您期望的。3.PDF中没有“表格”和“选项卡”的概念。(仅供参考,您的示例PDF中的这张表摘录得很好。但这只是巧合。)。。。4.由于PDF规范中没有“表格”的概念,您想象的场景如何将第6页上的特定文本序列识别为要提取的表格?下面是一个建议,请参考我的粗略注释。“可以使用tabla[1]将PDF中的表提取为csv。[1]。”