R-在PDF中迭代页面_R_Loops_Pdf

R-在PDF中迭代页面

r loops pdf

R-在PDF中迭代页面,r,loops,pdf,R,Loops,Pdf,我有一系列包含各种数据表的PDF文件。我只是在每个文件中寻找一个特定的表，我的目标是找到每个文件的页面我计划的方法是以某种方式迭代每个页面，阅读文本并确定它是否是我要查找的页面，如果是，则返回该页码，否则继续下一页。我一直在研究PDFTools，但似乎没有办法循环浏览页面有谁知道有什么R包可以帮助我实现这一点，或者有没有更好的方法可以用PDFTools实现这一点任何帮助都将不胜感激我认为在PDFtools中，有一些方法可以提取文本数据，逐页创建“字符串”。因此，代码可能如下所示： lib

我有一系列包含各种数据表的PDF文件。我只是在每个文件中寻找一个特定的表，我的目标是找到每个文件的页面

我计划的方法是以某种方式迭代每个页面，阅读文本并确定它是否是我要查找的页面，如果是，则返回该页码，否则继续下一页。我一直在研究PDFTools，但似乎没有办法循环浏览页面

有谁知道有什么R包可以帮助我实现这一点，或者有没有更好的方法可以用PDFTools实现这一点

任何帮助都将不胜感激

我认为在PDFtools中，有一些方法可以提取文本数据，逐页创建“字符串”。因此，代码可能如下所示：

library(pdftools)
txt <- pdf_text("something.pdf")

为了从每个

字符串中提取单词，您必须使用strsplit（）
，然后创建每页的单词向量，逐页查找单词，并在单词内部逐个查找。一旦与word
匹配，收集最外层的循环索引号作为页码
让我知道这是否有助于实现您的目的。当我循环浏览pdf文件或页面时，我会使用apply family函数（通常是Lappy）。有些人使用for循环。总之，PDFTools主要用于阅读PDF。任何迭代过程都可以用base R完成。
# first page text
txt[1]
txt[2] etc.