R 将HTML页面的大小写转换为小写
我需要将HTML页面的所有内容转换为较低版本。但我犯了个错误R 将HTML页面的大小写转换为小写,r,stringr,R,Stringr,我需要将HTML页面的所有内容转换为较低版本。但我犯了个错误 library(stringr) library(httr) library(XML) url <- "https://stackoverflow.com/" request <- GET(url) doc <- htmlParse(request, encoding = "UTF-8") doc <- str_to_lower(doc) 库(stringr) 图书馆(httr) 库(XML) url您可以
library(stringr)
library(httr)
library(XML)
url <- "https://stackoverflow.com/"
request <- GET(url)
doc <- htmlParse(request, encoding = "UTF-8")
doc <- str_to_lower(doc)
库(stringr)
图书馆(httr)
库(XML)
url您可以尝试将文档转换为字符,更改大小写,然后重复解析为HTML代码
library(stringr)
library(httr)
library(XML)
url <- "https://stackoverflow.com/"
request <- GET(url)
#convert to character then covert case
newdoc<-str_to_lower(as.character(request))
#reread the new doc to convert back to html
doc <- htmlParse(newdoc, encoding = "UTF-8")
库(stringr)
图书馆(httr)
库(XML)
谢谢你的回复,但我不能。。。我首先需要转换lower中的所有元素,然后才能提取它们。我之所以选择此方法,是因为我必须提取与我创建的列表相匹配的元素,并在之前将所有元素转换为小写(+删除所有重音),这允许我减少列表中的元素数量。我会尝试doc Hello@Dave2e,感谢您的回复,但这不起作用。创建newdoc变量时出错:as.vector(x,“character”)中出错:无法将类型“externalptr”强制为类型为“character”@Remi的向量,抱歉已更正错误。需要更改Get(URL)调用的大小写,而不是htmlpasse。如上所述,现在应该可以工作了。谢谢Dave2e,它现在可以工作了,但是doc变量中有一件事很奇怪。meta和其他标记中的所有内容属性都已转换。例如,这样的元描述现在看起来是这样的(引号在content属性内的第一个单词上结束)。你知道怎么修吗?