如何在R中使用pdftools将大量PDF文件转换为TXT文件?
我正在尝试将约600个pdf文件提取为文本格式,以便进行数据探索。看起来pdftool是我完成这项工作的最佳选择,但帮助文件很简短。我找到的最接近的教程使用xpdf。有没有办法使用pdftools来实现这一点如何在R中使用pdftools将大量PDF文件转换为TXT文件?,r,xpdf,R,Xpdf,我正在尝试将约600个pdf文件提取为文本格式,以便进行数据探索。看起来pdftool是我完成这项工作的最佳选择,但帮助文件很简短。我找到的最接近的教程使用xpdf。有没有办法使用pdftools来实现这一点 library("pdftools") folder <- file.path("C:\\Users\\adarvishian\\Documents\\MEGA\\Consular Affairs\\Visa Statistics\\Scrape") folder length &
library("pdftools")
folder <- file.path("C:\\Users\\adarvishian\\Documents\\MEGA\\Consular
Affairs\\Visa Statistics\\Scrape")
folder
length <- length(dir(folder))
length
dirpdf <- dir(folder)
dirpdf[1]
for(i in 1:length(dir(folder)))
{
text <- pdf_text("C:\\Users\\adarvishian\\Documents\\MEGA\\Consular
Affairs\\Visa Statistics\\Scrape")
}
库(“pdftools”)
文件夹库(“pdftools”)
文件夹库(“pdftools”)
所以我用xpdf计算出来了。所以我用xpdf计算出来了。
library("pdftools")
folder <- file.path("C:\\Users\\adarvishian\\Documents\\MEGA\\Consular
Affairs", "Visa Statistics", "Scrape")
folder
length <- length(dir(folder))
length
dirpdf <- dir(folder)
dirpdf[1]
pdftotxt <- "C:\\Users\\adarvishian\\Documents\\R\\otherpackages\\xpdf-
tools-win-4.00\\xpdf-tools-win-4.00\\bin64\\pdftotext.exe"
for(i in 1:length(dir(folder)))
{
pdf <- file.path("C:\\Users\\adarvishian\\Documents\\MEGA\\Consular
Affairs\\Visa Statistics", "Scrape", dirpdf[i])
system(paste("\"", pdftotxt, "\" \"", pdf, "\"", sep = ""),wait = F)
}