Rvest无法识别css选择器

Rvest无法识别css选择器,r,web-scraping,rvest,R,Web Scraping,Rvest,我正在努力清理这个网站: 通过R中的rvest包 不幸的是,rvest似乎无法通过CSS选择器识别节点 例如,如果我试图提取每个表(成绩、奖金、距离)标题中的信息,其CSS选择器为“.black”,我运行以下代码: URL <- read_html("http://www.racingpost.com/greyhounds/result_home.sd#resultDay=2015-12-26&meetingId=18&isFullMeeting=true") nodes

我正在努力清理这个网站:

通过R中的
rvest

不幸的是,
rvest
似乎无法通过CSS选择器识别节点

例如,如果我试图提取每个表(成绩、奖金、距离)标题中的信息,其CSS选择器为“.black”,我运行以下代码:

URL <- read_html("http://www.racingpost.com/greyhounds/result_home.sd#resultDay=2015-12-26&meetingId=18&isFullMeeting=true")
nodes<-html_nodes(URL, ".black") 

URL它发出一个XHR请求来生成HTML。尝试以下方法(这也会使数据捕获更容易自动化):

库(httr)
库(xml2)
图书馆(rvest)

res您的选择器很好,
rvest
工作正常。问题是您要查找的内容不在
url
object

如果打开该网站并使用web浏览器检查工具,您将看到所需的所有数据都是
的后代。现在,如果您查找此网站的源代码,您将看到以下内容(为了可读性增加了换行符):


正如您所见,在这一过程中存在一些编码问题,但这些问题可以在以后解决。

非常好。非常感谢。我可能认为这和我在其他网站上遇到的问题是一样的,你知道我在哪里可以找到关于如何在动态网站上提取查询的信息吗?开发者工具和Burp套件。这通常需要一些工作。是否有相关指南?此代码不起作用,正在抛出错误“curl::curl\u fetch\u memory(url,handle=handle):超时已达到”,这不是代码的问题,而是网站的问题。R不能强迫网站上线。
library(httr)
library(xml2)
library(rvest)

res <- GET("http://www.racingpost.com/greyhounds/result_by_meeting_full.sd",
           query=list(r_date="2015-12-26",
                      meeting_id=18))

doc <- read_html(content(res, as="text"))

html_nodes(doc, ".black")
## {xml_nodeset (56)}
##  [1] <span class="black">A9</span>
##  [2] <span class="black">£61</span>
##  [3] <span class="black">470m</span>
##  [4] <span class="black">-30</span>
##  [5] <span class="black">H2</span>
##  [6] <span class="black">£105</span>
##  [7] <span class="black">470m</span>
##  [8] <span class="black">-30</span>
##  [9] <span class="black">A7</span>
## [10] <span class="black">£61</span>
## [11] <span class="black">470m</span>
## [12] <span class="black">-30</span>
## [13] <span class="black">A5</span>
## [14] <span class="black">£66</span>
## [15] <span class="black">470m</span>
## [16] <span class="black">-30</span>
## [17] <span class="black">A8</span>
## [18] <span class="black">£61</span>
## [19] <span class="black">470m</span>
## [20] <span class="black">-20</span>
## ...
<div id="resultMainOutput">
    <div class="wait">
       <img src="http://ui.racingpost.com/img/all/loading.gif" alt="Loading..." />
    </div>
</div>
> url <- read_html("/tmp/racingpost.html")
> html_nodes(url, ".black")
# {xml_nodeset (56)}
# [1] <span class="black">A9</span>
# [2] <span class="black">£61</span>
# [3] <span class="black">470m</span>
# [4] <span class="black">-30</span>
# (skip the rest)