Web scraping 刮取一个松散的节点_Web Scraping_Rvest

Web scraping 刮取一个松散的节点

web-scraping

Web scraping 刮取一个松散的节点,web-scraping,rvest,Web Scraping,Rvest,我正在删除一个“松散”节点，其中包含同一数据的多个元素。下面的代码从列出唱片集的页面中删除城市日期。我只想要每张专辑的第一个城市日期实例，但我不确定如何编写代码，以便只返回第一个城市日期实例 library(rvest);library(stringi);library(stringr) citydate <- read_html("https://www.jazzdisco.org/atlantic-records/catalog-1200-series/") %>% ht

我正在删除一个“松散”节点，其中包含同一数据的多个元素。下面的代码从列出唱片集的页面中删除城市日期。我只想要每张专辑的第一个城市日期实例，但我不确定如何编写代码，以便只返回第一个城市日期实例

library(rvest);library(stringi);library(stringr)
citydate <- read_html("https://www.jazzdisco.org/atlantic-records/catalog-1200-series/") %>%
    html_nodes(".date") %>% html_text()

library（rvest）；图书馆（stringi）；图书馆（stringr）
城市日期%
html_节点（“.date”）%>%html_文本（）

您正在抓取的页面中没有太多层次结构。这意味着您需要查看其他结构。似乎每个日期前面都有一个

h3

标题。知道了这一点，我们可以建立一个索引来获取您想要的值

首先抓取所有

h3

和

.date

节点：

nodes <- read_html("https://www.jazzdisco.org/atlantic-records/catalog-1200-series/") %>%
  html_nodes("h3,.date")

现在使用索引我们可以得到

.date

节点。我的测试与

h3

节点匹配，因此我们必须添加1以获得

.date

citydate <- nodes[index + 1] %>% html_text()

citydate%html\u text（）

此解决方案是否使用了

rvest

以外的软件包？我在

html\u节点（“h3，.date”）

中遇到错误，谢谢您的帮助！嗨，本，不是一个附加包，而是一个打字错误。我在

read\u html

和

html\u节点之间缺少%>%。我已经编辑了上面的代码，非常感谢@mrjoh3！
citydate <- nodes[index + 1] %>% html_text()