Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/html/80.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
在R中仅提取html的某些部分_Html_R_Loops - Fatal编程技术网

在R中仅提取html的某些部分

在R中仅提取html的某些部分,html,r,loops,Html,R,Loops,关于如何从URL中提取文本的某些部分,我有两个问题 1.我想从这些URL中提取文本,但想删除财务报表表(损益表、资产负债表等) 2.例如,我想删除第一个URL中S-8风险因素之后的部分 u <- "https://www.sec.gov/Archives/edgar/data/944508/000104746914007395/a2221329z424b7.htm" ie <- COMCreate("InternetExplorer.Application") ie$Navigat

关于如何从URL中提取文本的某些部分,我有两个问题 1.我想从这些URL中提取文本,但想删除财务报表表(损益表、资产负债表等) 2.例如,我想删除第一个URL中S-8风险因素之后的部分

u <- "https://www.sec.gov/Archives/edgar/data/944508/000104746914007395/a2221329z424b7.htm"
ie <- COMCreate("InternetExplorer.Application") 
ie$Navigate(u)
doc <- list()
doc[[u]] <- ie[["document"]][["body"]][["innerText"]] 
#ie$Quit()
doc=tolower(doc)
dic=c("breakthrough", "develop", "patent")
sent=unlist(strsplit(as.character(doc),split="\\."))[grep(paste(dic,collapse="|"),unlist(strsplit(as.character(doc),split="\\.")))]
write.csv(sent, "1.csv")

u看看
httr
xml2
。它们将允许您浏览网站的DOM,而不需要您远程控制internet explorer。”
COMCreate(“InternetExplorer.Application”)
“……哦,天哪。请不要。使用HTML抓取。如果您真的需要与浏览器交互,请使用(R)Selenium,而不是COM控制的Internet Explorer。