使用R正确提取锚元素的内部文本
我正在使用R刮取此链接www.jamesaltucher.com/sitemap.xml中的链接标题 这是我的密码使用R正确提取锚元素的内部文本,r,xpath,R,Xpath,我正在使用R刮取此链接www.jamesaltucher.com/sitemap.xml中的链接标题 这是我的密码 library(XML) library(RCurl) url.link <- 'http://www.jamesaltucher.com/sitemap.xml' blog <- getURL(url.link) blog <- htmlParse(blog, encoding = "UTF-8") titles <- xpathSAp
library(XML)
library(RCurl)
url.link <- 'http://www.jamesaltucher.com/sitemap.xml'
blog <- getURL(url.link)
blog <- htmlParse(blog, encoding = "UTF-8")
titles <- xpathSApply (blog ,"//a",xmlValue) ## titles
库(XML)
图书馆(RCurl)
url.link是。您正在查找loc
元素,而不是a
元素
titles <- xpathSApply (html ,"//loc",xmlValue)
标题网页定位?我想获取
的内部html,这不需要我声明a
?你的答案是对的。但我不确定loc
是正确答案。我的意思是我不确定为什么loc
是正确的。我被那个词弄糊涂了。抱歉,缺少单词。请检查htmldoc的内容。。链接在
标记中,而不是
标记中。我在浏览器中打开了链接www.jamesaltucher.com/sitemap.xml
。也许这就是为什么它是标签。我可以检查RStudio中的htmldoc吗?