在R中仅提取html的某些部分
关于如何从URL中提取文本的某些部分,我有两个问题 1.我想从这些URL中提取文本,但想删除财务报表表(损益表、资产负债表等) 2.例如,我想删除第一个URL中S-8风险因素之后的部分在R中仅提取html的某些部分,html,r,loops,Html,R,Loops,关于如何从URL中提取文本的某些部分,我有两个问题 1.我想从这些URL中提取文本,但想删除财务报表表(损益表、资产负债表等) 2.例如,我想删除第一个URL中S-8风险因素之后的部分 u <- "https://www.sec.gov/Archives/edgar/data/944508/000104746914007395/a2221329z424b7.htm" ie <- COMCreate("InternetExplorer.Application") ie$Navigat
u <- "https://www.sec.gov/Archives/edgar/data/944508/000104746914007395/a2221329z424b7.htm"
ie <- COMCreate("InternetExplorer.Application")
ie$Navigate(u)
doc <- list()
doc[[u]] <- ie[["document"]][["body"]][["innerText"]]
#ie$Quit()
doc=tolower(doc)
dic=c("breakthrough", "develop", "patent")
sent=unlist(strsplit(as.character(doc),split="\\."))[grep(paste(dic,collapse="|"),unlist(strsplit(as.character(doc),split="\\.")))]
write.csv(sent, "1.csv")
u看看httr
和xml2
。它们将允许您浏览网站的DOM,而不需要您远程控制internet explorer。”COMCreate(“InternetExplorer.Application”)
“……哦,天哪。请不要。使用HTML抓取。如果您真的需要与浏览器交互,请使用(R)Selenium,而不是COM控制的Internet Explorer。