在R中下载PDF时需要帮助_R_Pdf_Web Scraping_Web Crawler_Data Science

在R中下载PDF时需要帮助

r pdf web-scraping web-crawler

在R中下载PDF时需要帮助,r,pdf,web-scraping,web-crawler,data-science,R,Pdf,Web Scraping,Web Crawler,Data Science,在下面的代码中，句柄部分似乎在我每次尝试下载PDF时都会给我一个错误 url <- "http://brocktonpolice.com/wp-content/uploads/" filename <- paste0(format(AllDays, '%Y/%m/%m%d%Y'), '.pdf') filenames_list <- str_extract_all(filenames, 'uploads.+pdf') downloadPDF <- function(fi

在下面的代码中，

句柄

部分似乎在我每次尝试下载PDF时都会给我一个错误

url <- "http://brocktonpolice.com/wp-content/uploads/"
filename <- paste0(format(AllDays, '%Y/%m/%m%d%Y'), '.pdf')
filenames_list <- str_extract_all(filenames, 'uploads.+pdf')

downloadPDF <- function(filename, baseurl, folder, handle){
      dir.create(folder, showWarnings = FALSE)
      fileurl <- str_c(baseurl, filename)
      if (!file.exists(str_c(folder,"/",filename))) {    
            content <- getBinaryURL(fileurl, curl = handle )
            writeBin(content, str_c(folder,"/",filename))
            Sys.sleep(1)
      }
}

handle <- getCurlHandle(useragent = str_c(R.version$platform,
                  R.version.string, sep = ", "), 
                  httpheader = c(from = "jomisilfe@gmail.com"))

l_ply(filenames_list, downloadPDF,
      baseurl = "http://brocktonpolice.com/wp-content/uploads/",
      folder = "Police_logs")

url我已经这样做了：

通过检查URL，有时在不到十天的天数和月份之前没有前导零
在这里，我创建了所有的URL，其中天和月都少于十个，并且前导零
prefix <- "http://brocktonpolice.com/wp-content/uploads/"
AllDays <- seq.Date(from = as.Date('2015-01-01'), to = Sys.Date(), by = "day")
links1 <- paste0(prefix, format(AllDays, '%Y/%m/%m%d%y'), '.pdf')

AllDays_NL <- gsub("0", "", format(AllDays, '%m%d%y'))
links2 <- paste0(prefix, format(AllDays, '%Y/%m/'), AllDays_NL,'.pdf')

prefix我已经这样做了：

通过检查URL，有时在不到十天的天数和月份之前没有前导零
在这里，我创建了所有的URL，其中天和月都少于十个，并且前导零
prefix <- "http://brocktonpolice.com/wp-content/uploads/"
AllDays <- seq.Date(from = as.Date('2015-01-01'), to = Sys.Date(), by = "day")
links1 <- paste0(prefix, format(AllDays, '%Y/%m/%m%d%y'), '.pdf')

AllDays_NL <- gsub("0", "", format(AllDays, '%m%d%y'))
links2 <- paste0(prefix, format(AllDays, '%Y/%m/'), AllDays_NL,'.pdf')

前缀