rvest-查找具有最后页码的html节点

rvest-查找具有最后页码的html节点,html,r,web-scraping,rvest,Html,R,Web Scraping,Rvest,我正在学习网络抓取,并为自己创建了一个小练习来抓取食谱网站的所有标题:。(我从这篇文章中得到了灵感:) 我想刮取最后一个页码的值,即(在撰写本文时)第64页。你可以在底部找到页数。我看到它存储为“a.facetwp-page last”,但由于某些原因无法访问此节点。我可以看到页码值存储为“数据页”,但我无法通过“html\u attrs”获取该值 我相信父节点是“div.facetwp-pager”,我可以按如下方式访问该节点: library(rvest) pg <- read_htm

我正在学习网络抓取,并为自己创建了一个小练习来抓取食谱网站的所有标题:。(我从这篇文章中得到了灵感:)

我想刮取最后一个页码的值,即(在撰写本文时)第64页。你可以在底部找到页数。我看到它存储为“a.facetwp-page last”,但由于某些原因无法访问此节点。我可以看到页码值存储为“数据页”,但我无法通过“html\u attrs”获取该值

我相信父节点是“div.facetwp-pager”,我可以按如下方式访问该节点:

library(rvest)
pg <- read_html("https://pinchofyum.com/recipes")
html_nodes(pg, "div.facetwp-pager")
库(rvest)

pg有时使用rvest进行抓取不起作用,特别是当网页是用java脚本动态生成时(我也无法使用
rvest
进行抓取)。在这些情况下,您可以使用
RSelenium
包。我可以像这样刮取你想要的元素:

library(RSelenium)

rD <- rsDriver(browser = c("firefox")) #specify browser type you want Selenium to open
remDr <- rD$client
remDr$navigate("https://pinchofyum.com/recipes?fwp_paged=1") # navigates to webpage

webElem <- remDr$findElement(using = "css selector", ".last") #find desired element

txt <- webElem$getElementText() # gets us the HTML

#> txt
#>[[1]]
#>[1] "64"
库(RSelenium)
研发部