在R中循环多个网页
抱歉,这可能太复杂了,无法在此提问。我试图重现纽约时报方言地图可视化的黑客会话,位于。一开始我还可以,但是当我尝试替换多个页面时遇到了问题 为了避免人们不得不复制幻灯片中的信息,我到目前为止已经做到了以下几点: 创建URL地址: 从子URL中删除状态在R中循环多个网页,r,loops,web-scraping,R,Loops,Web Scraping,抱歉,这可能太复杂了,无法在此提问。我试图重现纽约时报方言地图可视化的黑客会话,位于。一开始我还可以,但是当我尝试替换多个页面时遇到了问题 为了避免人们不得不复制幻灯片中的信息,我到目前为止已经做到了以下几点: 创建URL地址: 从子URL中删除状态 这不是很有效,因为这个向量的长度是51,但是上面显示的向量的长度只有1。后来,我希望每个州都有自己的名字,而不是所有州都有相同的州名。此外,我不知道如何处理州名,我相信这是我的功劳。请参阅或参阅以获取解决方案 我想我已经解决了一些问题。问题不在这里
这不是很有效,因为这个向量的长度是51,但是上面显示的向量的长度只有1。后来,我希望每个州都有自己的名字,而不是所有州都有相同的州名。此外,我不知道如何处理州名,我相信这是我的功劳。请参阅或参阅以获取解决方案 我想我已经解决了一些问题。问题不在这里,但后来发生了。我想在黑客会话的第30张幻灯片之前我都有可用的代码。我意识到这可能太复杂了,无法在这里讨论,所以我为我目前所拥有的创造了一个新的平台。我认为剩下的问题是原始演示文稿中缺少幻灯片,因此这需要一些工作。任何帮助都将不胜感激。
mainURL <- 'http://www4.uwm.edu/FLL/linguistics/dialect/staticmaps/'
stateURL <- 'states.html'
url <- paste0(mainURL, stateURL)
tmp <- getURL(url)
tmp <- htmlTreeParse(tmp, useInternalNodes = TRUE)
subURL <- unlist(xpathSApply(tmp, '//a[@href]', xmlAttrs))
subURL <- subURL[-(1:4)]
survey <- vector(length(subURL), mode = "list")
i = 1
stateNames <- rep('', length(subURL))
suburl <- subURL[1]
stateName <- gsub('state_','',suburl)
stateName <- gsub('.html','',stateName)
stateNames[i] <- stateName
stateNames <- gsub('state_','',subURL)
stateNames <-gsub('.html','',stateNames)