Html 如何解析没有<;P>;或</P>;R中的标签?
我正在使用Html 如何解析没有<;P>;或</P>;R中的标签?,html,r,web-scraping,rvest,Html,R,Web Scraping,Rvest,我正在使用rvest解析html页面。我希望从页面中摘录以下段落: txtfile %>% paste(collapse=" ") %>% read_html() %>% html_nodes('p') 然而,这里有一个网页不起作用的例子,因为(我的最佳猜测)它没有段落标记: 我怎样才能在R中解析这样的东西?@jenesaisquoi是的,我是read_html('path/to/txtfile/here')%%>%html_text()…如果您不想一次获取所有文本,那么它只
rvest
解析html页面。我希望从页面中摘录以下段落:
txtfile %>% paste(collapse=" ") %>% read_html() %>% html_nodes('p')
然而,这里有一个网页不起作用的例子,因为(我的最佳猜测)它没有段落标记:
我怎样才能在R中解析这样的东西?@jenesaisquoi是的,我是
read_html('path/to/txtfile/here')%%>%html_text()
…如果您不想一次获取所有文本,那么它只是文本。如果使用readLines读入,请查找空行;如果粘贴为文本,请查找“\n\n”。有一个奇怪的文本标题,但这是一个可以使用rvest
解析的html文档。不清楚您要从该文档中提取什么,而且该文档太大,无法猜测。@cory我想获取文档中的所有文本,去掉html标记。