R 抓取网站的某个特定部分?

R 抓取网站的某个特定部分?,r,web-scraping,R,Web Scraping,我有一个文档的URL列表(mesa$fullerurl),我试图在每个网站上刮取一段特定的文本(关于风险因素的段落)。问题是我在本节中看不到唯一的HTML标记。我能想到的最好的方法是告诉R从风险因素标题到下一个标题抓取文本,然后将其放在新的数据框k10中,但我不确定如何在R中指定。谢谢! 以下是我试图从中获取的文档示例: sec% html_attr(“href”) xcel sec<-read_html("https://www.sec.gov/cgi-bin/browse-edgar

我有一个文档的URL列表(mesa$fullerurl),我试图在每个网站上刮取一段特定的文本(关于风险因素的段落)。问题是我在本节中看不到唯一的HTML标记。我能想到的最好的方法是告诉R从风险因素标题到下一个标题抓取文本,然后将其放在新的数据框k10中,但我不确定如何在R中指定。谢谢! 以下是我试图从中获取的文档示例:

sec%
html_attr(“href”)
xcel
sec<-read_html("https://www.sec.gov/cgi-bin/browse-edgar? 
action=getcompany&CIK=0000072903&type=10- 
k&dateb=&owner=exclude&count=40")
xcel<- sec %>%
  html_nodes("#documentsbutton") %>%
  html_attr("href")
xcel<-data.frame(xcel)
xcel$xcell<-paste0("https://www.sec.gov",xcel$xcell)
xcel$fullurl<-paste0(xcel$xcell,xcel$xcel)
as.character(xcel$fullurl)

mesa<-map_dfr(xcel$fullurl, ~ .x %>% read_html() %>%  html_table() %>% . 
[[1]])
mesa<-subset(mesa,mesa$Type=="10-K"|mesa$Type=="10-K/A"|mesa$Type=="10- 
K405")
mesa
s<-gsub("(.*)/.*","\\1",xcel$fullurl)
table(xcel$fullurl)
xcel$fullurl<-s
xcel$fullurl<-paste0(xcel$fullurl,"/") 
mesa$fullerurl<-paste0(xcel$fullurl,mesa$Document)
as.character(mesa$fullerurl)
mesa$Document[mesa$Document == ""] <- NA
mesa$fullerurl 
#Below is the problematic part 
k10<-map_dfr(mesa$fullerurl, ~ .x %>% read_html("") %>%  html_nodes("") 
%>% html_text(""))