Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/linux/22.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Linux 使用R从基于web的PDF中抓取信息_Linux_R_Pdf_Web Scraping - Fatal编程技术网

Linux 使用R从基于web的PDF中抓取信息

Linux 使用R从基于web的PDF中抓取信息,linux,r,pdf,web-scraping,Linux,R,Pdf,Web Scraping,我正在尝试从以下基于web的PDF中提取文本信息: 有什么建议吗?我在探索tm软件包时运气不好(不认识路径): >pdf.loader rr如果您在linux上,您可以使用pdftotext命令行实用程序。想法不错,但请输入pdftotexthttp://www.cmegroup.com/delivery_reports/IssuesAndStopsReport.pdf给出了相同的“无法处理URI”错误。您可以使用download.file下载该文件,然后将其删除。我想如果你处理太多的PDF文件

我正在尝试从以下基于web的PDF中提取文本信息:

有什么建议吗?我在探索tm软件包时运气不好(不认识路径):


>pdf.loader rr如果您在linux上,您可以使用pdftotext命令行实用程序。想法不错,但请输入
pdftotexthttp://www.cmegroup.com/delivery_reports/IssuesAndStopsReport.pdf
给出了相同的“无法处理URI”错误。您可以使用
download.file
下载该文件,然后将其删除。我想如果你处理太多的PDF文件,速度会慢一些。是的,应该可以,只有四个PDF文件。我们希望有一个更直接的解决方案,但目前这是可行的。谢谢
> pdf.loader <- readPDF(control= list(text = "-layout"))
> rr <- pdf.loader(elem=list(uri="http://www.cmegroup.com/delivery_reports/IssuesAndStopsReport.pdf"),language="en",id="id1")
Error: Cannot handle URI 'http://www.cmegroup.com/delivery_reports/IssuesAndStopsReport.pdf'.
Error: Cannot handle URI 'http://www.cmegroup.com/delivery_reports/IssuesAndStopsReport.pdf'.
Warning messages:
1: In normalizePath(file) :
  path[1]="http://www.cmegroup.com/delivery_reports/IssuesAndStopsReport.pdf": No such file or directory
2: running command ''pdftotext' -layout 'http://www.cmegroup.com/delivery_reports/IssuesAndStopsReport.pdf' -' had status 1