Web scraping 刮取一个松散的节点
我正在删除一个“松散”节点,其中包含同一数据的多个元素。下面的代码从列出唱片集的页面中删除城市日期。我只想要每张专辑的第一个城市日期实例,但我不确定如何编写代码,以便只返回第一个城市日期实例Web scraping 刮取一个松散的节点,web-scraping,rvest,Web Scraping,Rvest,我正在删除一个“松散”节点,其中包含同一数据的多个元素。下面的代码从列出唱片集的页面中删除城市日期。我只想要每张专辑的第一个城市日期实例,但我不确定如何编写代码,以便只返回第一个城市日期实例 library(rvest);library(stringi);library(stringr) citydate <- read_html("https://www.jazzdisco.org/atlantic-records/catalog-1200-series/") %>% ht
library(rvest);library(stringi);library(stringr)
citydate <- read_html("https://www.jazzdisco.org/atlantic-records/catalog-1200-series/") %>%
html_nodes(".date") %>% html_text()
library(rvest);图书馆(stringi);图书馆(stringr)
城市日期%
html_节点(“.date”)%>%html_文本()
您正在抓取的页面中没有太多层次结构。这意味着您需要查看其他结构。似乎每个日期前面都有一个h3
标题。知道了这一点,我们可以建立一个索引来获取您想要的值
首先抓取所有h3
和.date
节点:
nodes <- read_html("https://www.jazzdisco.org/atlantic-records/catalog-1200-series/") %>%
html_nodes("h3,.date")
现在使用索引我们可以得到.date
节点。我的测试与h3
节点匹配,因此我们必须添加1以获得.date
citydate <- nodes[index + 1] %>% html_text()
citydate%html\u text()
此解决方案是否使用了rvest
以外的软件包?我在html\u节点(“h3,.date”)
中遇到错误,谢谢您的帮助!嗨,本,不是一个附加包,而是一个打字错误。我在read\u html
和html\u节点之间缺少%>%
。我已经编辑了上面的代码,非常感谢@mrjoh3!
citydate <- nodes[index + 1] %>% html_text()