Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/r/64.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
R 如何使pdf_文本上的循环仅用于读取所有文件?_R - Fatal编程技术网

R 如何使pdf_文本上的循环仅用于读取所有文件?

R 如何使pdf_文本上的循环仅用于读取所有文件?,r,R,我有一系列475个文件需要转换成文本。为此,我编写了以下代码: files <- list.files(pattern = "pdf$") for (i in 1:length(files)){ print(i) files_pdfs <- pdf_text(files[i]) %>% tibble(txt = .) %>% unnest_tokens(word, txt)} 文件%unnest\u标记(word,txt)} 它似乎执行成功,但当我检查输出时,它显然

我有一系列475个文件需要转换成文本。为此,我编写了以下代码:

files <- list.files(pattern = "pdf$")

for (i in 1:length(files)){
print(i)
files_pdfs <- pdf_text(files[i]) %>% tibble(txt = .) %>% unnest_tokens(word, txt)}
文件%unnest\u标记(word,txt)}
它似乎执行成功,但当我检查输出时,它显然只读取了最终文件中的文本。我试着把PDF的语料库分成更小的部分,但我仍然遇到同样的问题——总是只有最后一个文件中的文本。我确信这是我代码中的一个基本错误,但我无法理解。有什么想法吗


谢谢你的帮助

您在每个周期都会覆盖PDF文件。尝试:

files <- list.files(pattern = "pdf$")

files_pdfs <- list()
for (i in 1:length(files))
{
  print(i)
  files_pdfs[[files[i]]] <- pdf_text(files[i]) %>% 
                            tibble(txt = .)    %>% 
                            unnest_tokens(word, txt)
}
文件