R 如何使pdf_文本上的循环仅用于读取所有文件?
我有一系列475个文件需要转换成文本。为此,我编写了以下代码:R 如何使pdf_文本上的循环仅用于读取所有文件?,r,R,我有一系列475个文件需要转换成文本。为此,我编写了以下代码: files <- list.files(pattern = "pdf$") for (i in 1:length(files)){ print(i) files_pdfs <- pdf_text(files[i]) %>% tibble(txt = .) %>% unnest_tokens(word, txt)} 文件%unnest\u标记(word,txt)} 它似乎执行成功,但当我检查输出时,它显然
files <- list.files(pattern = "pdf$")
for (i in 1:length(files)){
print(i)
files_pdfs <- pdf_text(files[i]) %>% tibble(txt = .) %>% unnest_tokens(word, txt)}
文件%unnest\u标记(word,txt)}
它似乎执行成功,但当我检查输出时,它显然只读取了最终文件中的文本。我试着把PDF的语料库分成更小的部分,但我仍然遇到同样的问题——总是只有最后一个文件中的文本。我确信这是我代码中的一个基本错误,但我无法理解。有什么想法吗
谢谢你的帮助 您在每个周期都会覆盖PDF文件。尝试:
files <- list.files(pattern = "pdf$")
files_pdfs <- list()
for (i in 1:length(files))
{
print(i)
files_pdfs[[files[i]]] <- pdf_text(files[i]) %>%
tibble(txt = .) %>%
unnest_tokens(word, txt)
}
文件