使用pdf提取器循环并添加到R中的数据帧
我想通过pdf工具读取pdf,从中提取一些数据并将其写入csv。我已经能够成功地做到这一点为一个pdf,但我有很多(440)要做。我试图编写一个循环,遍历我创建的一个列表,其中包含我所有的文件路径。问题是每次都会被覆盖。因此,我认为我的程序正在做我要求它做的事情,但我没有要求正确的事情!我的代码如下:使用pdf提取器循环并添加到R中的数据帧,r,loops,pdf,R,Loops,Pdf,我想通过pdf工具读取pdf,从中提取一些数据并将其写入csv。我已经能够成功地做到这一点为一个pdf,但我有很多(440)要做。我试图编写一个循环,遍历我创建的一个列表,其中包含我所有的文件路径。问题是每次都会被覆盖。因此,我认为我的程序正在做我要求它做的事情,但我没有要求正确的事情!我的代码如下: temp <-as.list(list.files(pattern = "*.pdf")) file_path <- file.path(getwd(),temp)%>%as.
temp <-as.list(list.files(pattern = "*.pdf"))
file_path <- file.path(getwd(),temp)%>%as.list()
data_anz<-as.character()
for (i in 1:length(file_path)){
data_anz<-pdf_text(file_path[[i]])[2]%>%str_split("\n")%>%.[[1]]%>%str_split_fixed("\\s{2,}", n=4)%>%as.data.frame(i:length(file_path))%>%rename(Commodity =V1, Level = V2, Change = V3, Description = V4)
}
temp%str\u split\u fixed(\\s{2,},n=4)%%>%as.data.frame(i:长度(文件路径))%%>%rename(商品=V1,级别=V2,更改=V3,描述=V4)
}
我想要实现的是一个数据帧,它会随着每次迭代而增加,而不是过度写入。因此,第一次运行,df=1行,4列,下一次运行2行等
我迷路了!但是我可以让它为列表中的一个成员工作,它似乎可以在整个列表中工作,但会覆盖
任何帮助都将不胜感激 循环的每次迭代都将表分配给同一个变量。你可能想试试类似的东西
data_anz<-list()
for (i in 1:length(file_path)){
data_anz[[i]] <- ...
}
data_anz_all <- do.call(data_anz, rbind)
data_anz