试图从网站中获取数据表。数据由javascript代码生成

试图从网站中获取数据表。数据由javascript代码生成,javascript,r,web-scraping,rvest,Javascript,R,Web Scraping,Rvest,我正在尝试使用R下载网站上的数据表。我还没有找到一种方法可以做到这一点。只有复制并粘贴到Excel中,我才能访问数据。这是一次无效的尝试: url <- read_html("https://sites.google.com/a/slu.edu/swartwout/home/cubesat-database") table <- url %>% + html_nodes(xpath='/html/body/script[2]/text()') %&g

我正在尝试使用R下载网站上的数据表。我还没有找到一种方法可以做到这一点。只有复制并粘贴到Excel中,我才能访问数据。这是一次无效的尝试:

    url <- read_html("https://sites.google.com/a/slu.edu/swartwout/home/cubesat-database")
    table <- url %>%
      + html_nodes(xpath='/html/body/script[2]/text()') %>%
      + html_table(header = TRUE, fill=TRUE)
url%
+html_表格(标题=TRUE,填充=TRUE)
我已经尝试了许多html_节点,但没有一个可以工作。我可能做得不对,或者我可能需要一种不同的方法。数据似乎是由javascript生成的。表中显示的数据在html代码中根本不可见,即使它在查看网站时可见。Hadley Wickham的Selectorgadget应用于乐高电影的imdb页面时效果非常好,但在这个网站上一点也不好


在我写这篇文章时,StackOverflow提出了一个类似的问题。这建议使用硒。我采用了这种方法,但没有成功。我得到了一些错误,包括“为'RSelenium'加载包或命名空间失败”

如果表是动态生成的,即使用JavaScript和对JSON文件的XHTML请求或诸如此类的内容,为什么不抓取JSON文件并对其进行操作,而不是尝试刮取页面?生成表的代码非常复杂,我仍在尝试理解它。现在看来,表中的某些部分已经编号,有些部分是由JavaScript生成的。弄清楚哪个是哪个要花很多时间。我还没有发现被处理的数据的来源。我也从未使用JavaScript编程。除此之外,这是一个好主意。我一直在想,如果我能看到屏幕上显示的数据,应该有一种方法来捕获它。喜欢复制和粘贴。也许我一直这样做?我继续我的搜索,并取得了一个发现。在StackOverflow进行搜索。试试搜索词:“scrapewebpython”。我想这会告诉你解决方案在哪里。O'Reilly实际上有一本关于这个主题的书,是Ryan Mitchell写的。现在,我所学的Python并不比我所学的JavaScript多,但如果这些是解决方案,那么它们就是很好的途径。如果表是动态生成的,即使用JavaScript和对JSON文件的XHTML请求或诸如此类,为什么不抓取JSON文件并对其进行操作,而不是尝试刮取页面?生成表的代码非常复杂,我仍在尝试理解它。现在看来,表中的某些部分已经编号,有些部分是由JavaScript生成的。弄清楚哪个是哪个要花很多时间。我还没有发现被处理的数据的来源。我也从未使用JavaScript编程。除此之外,这是一个好主意。我一直在想,如果我能看到屏幕上显示的数据,应该有一种方法来捕获它。喜欢复制和粘贴。也许我一直这样做?我继续我的搜索,并取得了一个发现。在StackOverflow进行搜索。试试搜索词:“scrapewebpython”。我想这会告诉你解决方案在哪里。O'Reilly实际上有一本关于这个主题的书,是Ryan Mitchell写的。现在,我所学的Python并不比我所学的JavaScript多,但如果这些是解决方案,那么它们就是很好的途径。如果比R好,那就这样吧。