Web scraping 刮取一个松散的节点

Web scraping 刮取一个松散的节点,web-scraping,rvest,Web Scraping,Rvest,我正在删除一个“松散”节点,其中包含同一数据的多个元素。下面的代码从列出唱片集的页面中删除城市日期。我只想要每张专辑的第一个城市日期实例,但我不确定如何编写代码,以便只返回第一个城市日期实例 library(rvest);library(stringi);library(stringr) citydate <- read_html("https://www.jazzdisco.org/atlantic-records/catalog-1200-series/") %>% ht

我正在删除一个“松散”节点,其中包含同一数据的多个元素。下面的代码从列出唱片集的页面中删除城市日期。我只想要每张专辑的第一个城市日期实例,但我不确定如何编写代码,以便只返回第一个城市日期实例

library(rvest);library(stringi);library(stringr)
citydate <- read_html("https://www.jazzdisco.org/atlantic-records/catalog-1200-series/") %>%
    html_nodes(".date") %>% html_text()
library(rvest);图书馆(stringi);图书馆(stringr)
城市日期%
html_节点(“.date”)%>%html_文本()

您正在抓取的页面中没有太多层次结构。这意味着您需要查看其他结构。似乎每个日期前面都有一个
h3
标题。知道了这一点,我们可以建立一个索引来获取您想要的值

首先抓取所有
h3
.date
节点:

nodes <- read_html("https://www.jazzdisco.org/atlantic-records/catalog-1200-series/") %>%
  html_nodes("h3,.date")
现在使用索引我们可以得到
.date
节点。我的测试与
h3
节点匹配,因此我们必须添加1以获得
.date

citydate <- nodes[index + 1] %>% html_text()
citydate%html\u text()

此解决方案是否使用了
rvest
以外的软件包?我在
html\u节点(“h3,.date”)
中遇到错误,谢谢您的帮助!嗨,本,不是一个附加包,而是一个打字错误。我在
read\u html
html\u节点之间缺少
%>%
。我已经编辑了上面的代码,非常感谢@mrjoh3!
citydate <- nodes[index + 1] %>% html_text()