就像从web上抓取数据一样，无论是从html还是json，在PDF中使用R也可以这样做吗？_R_Pdf_Pdf Scraping

就像从web上抓取数据一样，无论是从html还是json，在PDF中使用R也可以这样做吗？

r pdf

就像从web上抓取数据一样，无论是从html还是json，在PDF中使用R也可以这样做吗？,r,pdf,pdf-scraping,R,Pdf,Pdf Scraping,我想将研究文章（pdf文件）中的表格和类似表格的数据导入R 例如：这里以pdf为例。简单的表格开始。在pdf文件的第6页，我拍摄了一个屏幕截图来理解这个场景如何提取该表？“如何提取该表？”难度很大。1.并非所有PDF中的所有文本都是“默认”可提取的。有些可能不是文本，有些可能没有正确编码，有些可能编码不好。2.文本顺序可能不是您期望的。3.PDF中没有“表格”和“选项卡”的概念。（仅供参考，您的示例PDF中的这张表摘录得很好。但这只是巧合。）。。。4.由于PDF规范中没有“表格”的概念，您

我想将研究文章（pdf文件）中的表格和类似表格的数据导入R

例如：

这里以pdf为例。简单的表格开始。在pdf文件的第6页，我拍摄了一个屏幕截图来理解这个场景

如何提取该表？

“如何提取该表？”难度很大。1.并非所有PDF中的所有文本都是“默认”可提取的。有些可能不是文本，有些可能没有正确编码，有些可能编码不好。2.文本顺序可能不是您期望的。3.PDF中没有“表格”和“选项卡”的概念。（仅供参考，您的示例PDF中的这张表摘录得很好。但这只是巧合。）。。。4.由于PDF规范中没有“表格”的概念，您想象的场景如何将第6页上的特定文本序列识别为要提取的表格？下面是一个建议，请参考我的粗略注释。“可以使用tabla[1]将PDF中的表提取为csv。[1]。”