rselenium |获取youtube页面来源

rselenium |获取youtube页面来源,r,selenium,youtube,selenium-chromedriver,rselenium,R,Selenium,Youtube,Selenium Chromedriver,Rselenium,为什么youtube.com的页面来源不可刮取 我尝试了以下方法(使用phantomjs以及带有selenium服务器的chrome) 这是编码的问题。现在使用开发版本,直到下一个版本发布到CRAN: devtools::install_github("ropensci/RSelenium") 我同意这个问题很可能与编码有关 例如,这样的问题似乎只出现在与美俄空间合作相关的主题页面上(这表明这是由于网页内容中的西里尔文字造成的) 我通过使用弃用的relinium解决了这个问题,其中RSelen

为什么youtube.com的页面来源不可刮取

我尝试了以下方法(使用phantomjs以及带有selenium服务器的chrome)


这是编码的问题。现在使用开发版本,直到下一个版本发布到CRAN:

devtools::install_github("ropensci/RSelenium")

我同意这个问题很可能与编码有关

例如,这样的问题似乎只出现在与美俄空间合作相关的主题页面上(这表明这是由于网页内容中的西里尔文字造成的)

我通过使用弃用的
relinium
解决了这个问题,其中
RSelenium
失败。为了使
relium
ubuntu16.04
上顺利运行,我必须安装
firefox25.0
,并对其进行配置以防止任何更新。设置期间的另一个问题是正确安装
rJava
,这可能会由于缺少具有到Java库的正确路径的环境变量而失败

系统配置如下:

R version 3.3.1 (2016-06-21)
Platform: x86_64-pc-linux-gnu (64-bit)
Running under: Ubuntu 16.04.1 LTS

relenium_0.3.0; seleniumJars_2.41.0; rJava_0.9-8; RSelenium_1.3.5 
下面是一个可以使用Relium但不能使用RSelenium发行版刮取的页面示例:

link = "http://www.nasa.gov/mission_pages/station/expeditions/expedition14/index.html"
RSelenium解决方案失败(Firefox版本为
34.0.5
,或
25.0
,不管怎样):

startServer()

remDr firefox 47和selenium存在问题。firefox已经发布了47.01,但它似乎不适用于ubuntu。您可以安装Firefox48,它应该与当前版本的RSelenium一起使用。看见
R version 3.3.1 (2016-06-21)
Platform: x86_64-pc-linux-gnu (64-bit)
Running under: Ubuntu 16.04.1 LTS

relenium_0.3.0; seleniumJars_2.41.0; rJava_0.9-8; RSelenium_1.3.5 
link = "http://www.nasa.gov/mission_pages/station/expeditions/expedition14/index.html"
startServer()
remDr <- remoteDriver()
remDr$open()
remDr$navigate(link)
doc = unlist(remDr$getPageSource())
 relenium_browser <- firefoxClass$new()
 relenium_browser$get(link)
 doc = unlist(relenium_browser$getPageSource())
 doc = read_html(doc)