Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/r/78.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
R 网站抓取技术,以获取感兴趣的网站包含的链接_R_Web - Fatal编程技术网

R 网站抓取技术,以获取感兴趣的网站包含的链接

R 网站抓取技术,以获取感兴趣的网站包含的链接,r,web,R,Web,我正在与以下网站合作: 特别是在这一页上,有57个众筹活动。这些众筹活动中的每一个都有文本,详细说明了他们想筹集资金的原因、迄今为止筹集的资金总额以及团队成员。一些活动还明确了筹款目标。我想写一些R代码,从57个站点中的每个站点收集和组织这些信息 目前,我正试图取消57个不同活动的57个链接中的每一个。 下面是我尝试的代码: library("RCurl") library("XML") library("stringr") url <- "http:/

我正在与以下网站合作:

特别是在这一页上,有57个众筹活动。这些众筹活动中的每一个都有文本,详细说明了他们想筹集资金的原因、迄今为止筹集的资金总额以及团队成员。一些活动还明确了筹款目标。我想写一些R代码,从57个站点中的每个站点收集和组织这些信息

目前,我正试图取消57个不同活动的57个链接中的每一个。 下面是我尝试的代码:

    library("RCurl")
    library("XML")
    library("stringr")

    url <- "http://www.crowdrise.com/skollSEchallenge"
    cat("URL:", url)
    url.data <- readLines(url) 
    doc <- htmlTreeParse(url.data, useInternalNodes=TRUE)
    xp_exp   <- "//a[@href]"
    links <- xpathSApply(doc, xp_exp,xmlValue)
但是,不包含57个网站的链接…我有点困惑。。。 有人能帮我吗


谢谢,

举个例子:

xpathApply(doc, '//*[@id="teams-results"]/div/div/div/h4/a'
           ,xmlGetAttr,'href')

您将获得第一页的16个链接。但是您仍然存在激活后面的javascript代码(显示更多团队)以查看其余链接的问题。

这个非常丑陋的解决方案得到了32个链接,非常详细,但不需要评估javascript

library(httr)
x <- as.character(GET("http://www.crowdrise.com/skollSEchallenge"))
x <- unlist(strsplit(x, split = "\n", fixed = TRUE))

x <- gsub("\t", "", grep('class="profile">', x, value = TRUE, fixed = TRUE))
x <- unlist(strsplit(x, split = 'class="profile">', fixed = TRUE))[-1]

x <- gsub("\r<div class=\"content\">\r<a href=\"/", "", x, fixed = TRUE)
x <- substr(x, 1, as.integer(regexpr('\"><img', x)) - 1)
x <- paste("www.crowdrise.com/", x, sep = '')
库(httr)

如果您在stackoverflow上搜索
[r]webcrawl
,您会发现许多有用的问题
library(httr)
x <- as.character(GET("http://www.crowdrise.com/skollSEchallenge"))
x <- unlist(strsplit(x, split = "\n", fixed = TRUE))

x <- gsub("\t", "", grep('class="profile">', x, value = TRUE, fixed = TRUE))
x <- unlist(strsplit(x, split = 'class="profile">', fixed = TRUE))[-1]

x <- gsub("\r<div class=\"content\">\r<a href=\"/", "", x, fixed = TRUE)
x <- substr(x, 1, as.integer(regexpr('\"><img', x)) - 1)
x <- paste("www.crowdrise.com/", x, sep = '')