Rvest无法识别css选择器_R_Web Scraping_Rvest

Rvest无法识别css选择器

r web-scraping

Rvest无法识别css选择器,r,web-scraping,rvest,R,Web Scraping,Rvest,我正在努力清理这个网站：通过R中的rvest包不幸的是，rvest似乎无法通过CSS选择器识别节点例如，如果我试图提取每个表（成绩、奖金、距离）标题中的信息，其CSS选择器为“.black”，我运行以下代码： URL <- read_html("http://www.racingpost.com/greyhounds/result_home.sd#resultDay=2015-12-26&meetingId=18&isFullMeeting=true") nodes

我正在努力清理这个网站：

通过R中的

rvest

包

不幸的是，

rvest

似乎无法通过CSS选择器识别节点

例如，如果我试图提取每个表（成绩、奖金、距离）标题中的信息，其CSS选择器为“.black”，我运行以下代码：

URL <- read_html("http://www.racingpost.com/greyhounds/result_home.sd#resultDay=2015-12-26&meetingId=18&isFullMeeting=true")
nodes<-html_nodes(URL, ".black")

URL它发出一个XHR请求来生成HTML。尝试以下方法（这也会使数据捕获更容易自动化）：
库（httr）
库（xml2）
图书馆（rvest）
res您的选择器很好，rvest
工作正常。问题是您要查找的内容不在url
object中
如果打开该网站并使用web浏览器检查工具，您将看到所需的所有数据都是
的后代。现在，如果您查找此网站的源代码，您将看到以下内容（为了可读性增加了换行符）：
正如您所见，在这一过程中存在一些编码问题，但这些问题可以在以后解决。非常好。非常感谢。我可能认为这和我在其他网站上遇到的问题是一样的，你知道我在哪里可以找到关于如何在动态网站上提取查询的信息吗？开发者工具和Burp套件。这通常需要一些工作。是否有相关指南？此代码不起作用，正在抛出错误“curl:：curl\u fetch\u memory（url，handle=handle）：超时已达到”，这不是代码的问题，而是网站的问题。R不能强迫网站上线。
library(httr)
library(xml2)
library(rvest)

res <- GET("http://www.racingpost.com/greyhounds/result_by_meeting_full.sd",
           query=list(r_date="2015-12-26",
                      meeting_id=18))

doc <- read_html(content(res, as="text"))

html_nodes(doc, ".black")
## {xml_nodeset (56)}
##  [1] <span class="black">A9</span>
##  [2] <span class="black">£61</span>
##  [3] <span class="black">470m</span>
##  [4] <span class="black">-30</span>
##  [5] <span class="black">H2</span>
##  [6] <span class="black">£105</span>
##  [7] <span class="black">470m</span>
##  [8] <span class="black">-30</span>
##  [9] <span class="black">A7</span>
## [10] <span class="black">£61</span>
## [11] <span class="black">470m</span>
## [12] <span class="black">-30</span>
## [13] <span class="black">A5</span>
## [14] <span class="black">£66</span>
## [15] <span class="black">470m</span>
## [16] <span class="black">-30</span>
## [17] <span class="black">A8</span>
## [18] <span class="black">£61</span>
## [19] <span class="black">470m</span>
## [20] <span class="black">-20</span>
## ...

<div id="resultMainOutput">
    <div class="wait">
       <img src="http://ui.racingpost.com/img/all/loading.gif" alt="Loading..." />
    </div>
</div>

> url <- read_html("/tmp/racingpost.html")
> html_nodes(url, ".black")
# {xml_nodeset (56)}
# [1] <span class="black">A9</span>
# [2] <span class="black">Â£61</span>
# [3] <span class="black">470m</span>
# [4] <span class="black">-30</span>
# (skip the rest)