Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/r/79.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
R 使用TM软件包阅读pdf_R_Tm - Fatal编程技术网

R 使用TM软件包阅读pdf

R 使用TM软件包阅读pdf,r,tm,R,Tm,我正在尝试使用TM软件包读取pdf文件。我已经成功地完成了大部分尝试,但只有一次。我有几个文件夹,每个文件夹有数百个文档。除了一本外,我读了所有的书。问题是,特定文件夹中的PDF在第一页底部有一系列图像,阻止我阅读它们。我得到以下错误: Error in strptime(d, fmt) : input string is too long 如果我删除第一页,我会设法阅读它们。我可以在不损失太多相关信息的情况下完成这项工作,但工作量太大了 我尝试使用xpdf和ghoststring,但两者都给

我正在尝试使用TM软件包读取pdf文件。我已经成功地完成了大部分尝试,但只有一次。我有几个文件夹,每个文件夹有数百个文档。除了一本外,我读了所有的书。问题是,特定文件夹中的PDF在第一页底部有一系列图像,阻止我阅读它们。我得到以下错误:

Error in strptime(d, fmt) : input string is too long
如果我删除第一页,我会设法阅读它们。我可以在不损失太多相关信息的情况下完成这项工作,但工作量太大了

我尝试使用xpdf和ghoststring,但两者都给出了相同的错误

我的代码如下:

library(rvest)
library(tm)
url<-paste0("http://www.tjrj.jus.br/search?q=acidente+de+transito+crianca+atropelamento&btnG=Pesquisar&processType=cnj&site=juris&client=juris&output=xml_no_dtd&proxystylesheet=juris&entqrm=0&oe=UTF-8&ie=UTF-8&ud=1&filter=0&getfields=*&partialfields=(ctd:1)&exclude_apps=1&ulang=en&lr=lang_pt&sort=date:D:S:d1&as_q=+&access=p&entqr=3&start=",seq(0,462,10))

css<-sprintf(".margin-top-10:nth-child(%.d) .outros .featured",1:10)

for (j in 1:1){ # There 47 pages, but I only put one here 
for (i in 1:10){ # there are 10 files per page.
a<-html_node(css=css[i]) %>% 
html_attr("href")
download.file(a,paste0("doc",j,i,".pdf"))
}
}

files <- list.files(pattern = "pdf$")
Rpdf <- readPDF(control = list(text = "-layout"))
docs <- Corpus(URISource(files,encoding="UTF-8"),readerControl = list(reader = Rpdf,language="portuguese"))
库(rvest)
图书馆(tm)
url延迟回答:

但我最近发现,在当前的tm(0.7-4)版本中,readPDF默认使用pdftools来读取PDF

library(tm)

directory <- getwd() # change this to directory where pdf-files are located

# read the pdfs with readPDF, default engine used is pdftools see ?readPDF for more info
my_corpus <- VCorpus(DirSource(directory, pattern = ".pdf"), 
                               readerControl = list(reader = readPDF))
library(tm)
目录延迟回答:

但我最近发现,在当前的tm(0.7-4)版本中,readPDF默认使用pdftools来读取PDF

library(tm)

directory <- getwd() # change this to directory where pdf-files are located

# read the pdfs with readPDF, default engine used is pdftools see ?readPDF for more info
my_corpus <- VCorpus(DirSource(directory, pattern = ".pdf"), 
                               readerControl = list(reader = readPDF))
library(tm)

目录你能提供
download.file
语句来获取PDF文件以使其可复制吗?当然。我编辑添加了下载文件的过程。非常感谢。好的,
arquivos
,该对象来自哪里?试试
pdftools
库,看看
pdf\u text(filename)
是否解决了您的问题。我能够阅读第10个pdf.Hack-R的完整文本,将“arquivos”翻译成英文“files”并跳过了该单词。你能提供
download.file
语句来获取pdf以使其可复制吗?当然。我编辑添加了下载文件的过程。非常感谢。好的,
arquivos
,该对象来自哪里?试试
pdftools
库,看看
pdf\u text(filename)
是否解决了您的问题。我能够阅读第10期pdf.Hack-R的完整文本,将“arquivos”翻译成英文“files”,并跳过了那个单词。