Web scraping 如何从第二个网页上抓取数据?

Web scraping 如何从第二个网页上抓取数据?,web-scraping,rvest,Web Scraping,Rvest,我想使用rvest库中的函数从web上抓取数据。加载网站并使用表单效果良好。但当我想访问数据时,我只能访问可用的>70个表条目中的35个。数据被自动分成35个条目的块 在实际的网站上,这些数据将通过下一页按钮(.rgPageNext/*[包含(concat(“,@class,”)和concat(“,”rgPageNext“,”)])提供。但是,我不知道如何将其包含到代码中以访问其他条目 # library library(rvest) # load html session ua &l

我想使用rvest库中的函数从web上抓取数据。加载网站并使用表单效果良好。但当我想访问数据时,我只能访问可用的>70个表条目中的35个。数据被自动分成35个条目的块

在实际的网站上,这些数据将通过下一页按钮(.rgPageNext/*[包含(concat(“,@class,”)和concat(“,”rgPageNext“,”)])提供。但是,我不知道如何将其包含到代码中以访问其他条目

# library
library(rvest)    

# load html session
ua <- "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.132 Safari/537.36"
mainPage  <-'https://www.tsis.fli.de/Reports/Info_SO.aspx?ts=416&guid=d04e759d-7cf0-48da-b730-4d7f397531e2'

# use form on session
session <- html_session(mainPage, httr::user_agent(ua))
pgform <- html_form(session)[[1]]
pgform$fields[['ctl00$ContentPlaceHolder1$rblActiveMode']]$value =  "1"
filledform <- set_values(pgform)
result <- submit_form(session, filledform)

# load the entries 1-35
result %>%  
  html_nodes("#ctl00_ContentPlaceHolder1_rgSO_ctl00") %>%
  html_text()
#库
图书馆(rvest)
#加载html会话
ua