在R中仅提取html的某些部分_Html_R_Loops

在R中仅提取html的某些部分

html r loops

在R中仅提取html的某些部分,html,r,loops,Html,R,Loops,关于如何从URL中提取文本的某些部分，我有两个问题 1.我想从这些URL中提取文本，但想删除财务报表表（损益表、资产负债表等） 2.例如，我想删除第一个URL中S-8风险因素之后的部分 u <- "https://www.sec.gov/Archives/edgar/data/944508/000104746914007395/a2221329z424b7.htm" ie <- COMCreate("InternetExplorer.Application") ie$Navigat

关于如何从URL中提取文本的某些部分，我有两个问题 1.我想从这些URL中提取文本，但想删除财务报表表（损益表、资产负债表等） 2.例如，我想删除第一个URL中S-8风险因素之后的部分

u <- "https://www.sec.gov/Archives/edgar/data/944508/000104746914007395/a2221329z424b7.htm"
ie <- COMCreate("InternetExplorer.Application") 
ie$Navigate(u)
doc <- list()
doc[[u]] <- ie[["document"]][["body"]][["innerText"]] 
#ie$Quit()
doc=tolower(doc)
dic=c("breakthrough", "develop", "patent")
sent=unlist(strsplit(as.character(doc),split="\\."))[grep(paste(dic,collapse="|"),unlist(strsplit(as.character(doc),split="\\.")))]
write.csv(sent, "1.csv")

u看看httr
和xml2
。它们将允许您浏览网站的DOM，而不需要您远程控制internet explorer。”COMCreate（“InternetExplorer.Application”）
“……哦，天哪。请不要。使用HTML抓取。如果您真的需要与浏览器交互，请使用（R）Selenium，而不是COM控制的Internet Explorer。