Linux 使用R从基于web的PDF中抓取信息_Linux_R_Pdf_Web Scraping

Linux 使用R从基于web的PDF中抓取信息

linux r pdf web-scraping

Linux 使用R从基于web的PDF中抓取信息,linux,r,pdf,web-scraping,Linux,R,Pdf,Web Scraping,我正在尝试从以下基于web的PDF中提取文本信息：有什么建议吗？我在探索tm软件包时运气不好（不认识路径）： >pdf.loader rr如果您在linux上，您可以使用pdftotext命令行实用程序。想法不错，但请输入pdftotexthttp://www.cmegroup.com/delivery_reports/IssuesAndStopsReport.pdf给出了相同的“无法处理URI”错误。您可以使用download.file下载该文件，然后将其删除。我想如果你处理太多的PDF文件

我正在尝试从以下基于web的PDF中提取文本信息：

有什么建议吗？我在探索tm软件包时运气不好（不认识路径）：

>pdf.loader rr如果您在linux上，您可以使用pdftotext命令行实用程序。想法不错，但请输入pdftotexthttp://www.cmegroup.com/delivery_reports/IssuesAndStopsReport.pdf
给出了相同的“无法处理URI”错误。您可以使用download.file下载该文件，然后将其删除。我想如果你处理太多的PDF文件，速度会慢一些。是的，应该可以，只有四个PDF文件。我们希望有一个更直接的解决方案，但目前这是可行的。谢谢
> pdf.loader <- readPDF(control= list(text = "-layout"))
> rr <- pdf.loader(elem=list(uri="http://www.cmegroup.com/delivery_reports/IssuesAndStopsReport.pdf"),language="en",id="id1")
Error: Cannot handle URI 'http://www.cmegroup.com/delivery_reports/IssuesAndStopsReport.pdf'.
Error: Cannot handle URI 'http://www.cmegroup.com/delivery_reports/IssuesAndStopsReport.pdf'.
Warning messages:
1: In normalizePath(file) :
  path[1]="http://www.cmegroup.com/delivery_reports/IssuesAndStopsReport.pdf": No such file or directory
2: running command ''pdftotext' -layout 'http://www.cmegroup.com/delivery_reports/IssuesAndStopsReport.pdf' -' had status 1