readHTMLTable函数无法提取html表
我想从URL“”中提取表(表4)。问题是我必须使用硒 下面是我正在使用的代码:readHTMLTable函数无法提取html表,r,analytics,rselenium,R,Analytics,Rselenium,我想从URL“”中提取表(表4)。问题是我必须使用硒 下面是我正在使用的代码: remDr$navigate(URL) doc<-htmlParse(remDr$getPageSource()[[1]]) x<-readHTMLTable(doc) remDr$navigate(URL) doc我或多或少地遇到了同一个问题:我试图想出一个不使用htmlpasse的解决方案:例如(导航到页面后): 表我找到了解决办法。在我的例子中,我必须首先导航到内部框架(boxBg1),然后才能提
remDr$navigate(URL)
doc<-htmlParse(remDr$getPageSource()[[1]])
x<-readHTMLTable(doc)
remDr$navigate(URL)
doc我或多或少地遇到了同一个问题:我试图想出一个不使用htmlpasse的解决方案:例如(导航到页面后):
表我找到了解决办法。在我的例子中,我必须首先导航到内部框架(boxBg1),然后才能提取外部html,然后使用readHtmlTable函数。现在很好用。如果我将来遇到类似的问题,我会发帖子的。我认为效果不错。您使用download.file获得的表也可以通过使用以下RSelenium代码获得
readHTMLTable(htmlParse(remDr$getPageSource(),asText=TRUE),header=TRUE,which=6)
希望有帮助 为什么你要使用硒,如果它没有它就可以正常工作?另外,为什么download.file
版本指定了quote.html
,而RSelenium版本没有指定?您确定[[1]]
索引正在返回页面的完整HTML吗?RSelenium对于动态加载的网页非常有用,这对我的项目至关重要。你能给我提供使用RSelenium的代码吗?在这个URL中,有一些使用AjaX的动态页面。页面内容会更改,而URL保持不变。例如,如果单击“前几年”。简而言之,下载(URL,'qoute.html')将继续加载初始页面,因此浏览动态页面需要RSelenium
library(RSelenium)
library(XML)
u <- 'http://www.w3schools.com/html/html_tables.asp'
doc <- htmlParse(u)
tableNodes <- getNodeSet(do9c, "//table")
tb <- readHTMLTable(tableNodes[[1]])
readHTMLTable(htmlParse(remDr$getPageSource(),asText=TRUE),header=TRUE,which=6)