R-在PDF中迭代页面
我有一系列包含各种数据表的PDF文件。我只是在每个文件中寻找一个特定的表,我的目标是找到每个文件的页面 我计划的方法是以某种方式迭代每个页面,阅读文本并确定它是否是我要查找的页面,如果是,则返回该页码,否则继续下一页。我一直在研究PDFTools,但似乎没有办法循环浏览页面 有谁知道有什么R包可以帮助我实现这一点,或者有没有更好的方法可以用PDFTools实现这一点R-在PDF中迭代页面,r,loops,pdf,R,Loops,Pdf,我有一系列包含各种数据表的PDF文件。我只是在每个文件中寻找一个特定的表,我的目标是找到每个文件的页面 我计划的方法是以某种方式迭代每个页面,阅读文本并确定它是否是我要查找的页面,如果是,则返回该页码,否则继续下一页。我一直在研究PDFTools,但似乎没有办法循环浏览页面 有谁知道有什么R包可以帮助我实现这一点,或者有没有更好的方法可以用PDFTools实现这一点 任何帮助都将不胜感激 我认为在PDFtools中,有一些方法可以提取文本数据,逐页创建“字符串”。因此,代码可能如下所示: lib
任何帮助都将不胜感激 我认为在PDFtools中,有一些方法可以提取文本数据,逐页创建“字符串”。因此,代码可能如下所示:
library(pdftools)
txt <- pdf_text("something.pdf")
为了从每个字符串中提取单词,您必须使用strsplit()
,然后创建每页的单词向量,逐页查找单词,并在单词内部逐个查找。一旦与word
匹配,收集最外层的循环索引号作为页码
让我知道这是否有助于实现您的目的。当我循环浏览pdf文件或页面时,我会使用apply family函数(通常是Lappy)。有些人使用for循环。总之,PDFTools主要用于阅读PDF。任何迭代过程都可以用base R完成。
# first page text
txt[1]
txt[2] etc.