R 将要列表的字符向量绑定到数据帧中
我有一个URL列表,并提取了如下内容:R 将要列表的字符向量绑定到数据帧中,r,base,tm,httr,R,Base,Tm,Httr,我有一个URL列表,并提取了如下内容: library(httr) link="http://www.workerspower.net/disposable-workers-the-real-price-of-sweat-shop-labor" get.link=GET(link) get.content=content(x2,as="text") extract.content=str_extract_all(y2,"<p>(.*?)</p>") 有人知道如何将字符[
library(httr)
link="http://www.workerspower.net/disposable-workers-the-real-price-of-sweat-shop-labor"
get.link=GET(link)
get.content=content(x2,as="text")
extract.content=str_extract_all(y2,"<p>(.*?)</p>")
有人知道如何将字符[向量]与字符[列表]组合在一起吗?我会使用
XML
包来实现这一点。然后,应该避免在html/xml文档中使用正则表达式。改用xpath
。在这里,我创建了一个小函数,给它一个链接来创建语料库
library(XML)
create.corpus <- function(link){
doc <- htmlParse(link)
parag <- xpathSApply(doc,'//p',xmlValue)
library(tm)
cc <- Corpus(VectorSource(parag))
meta(cc,type='corpus','link') <- link
cc
}
## call it
cc <- create.corpus(link)
我会使用
XML
包来实现这一点。然后,应该避免在html/xml文档中使用正则表达式。改用xpath
。在这里,我创建了一个小函数,给它一个链接来创建语料库
library(XML)
create.corpus <- function(link){
doc <- htmlParse(link)
parag <- xpathSApply(doc,'//p',xmlValue)
library(tm)
cc <- Corpus(VectorSource(parag))
meta(cc,type='corpus','link') <- link
cc
}
## call it
cc <- create.corpus(link)
我会使用
XML
包来实现这一点。然后,应该避免在html/xml文档中使用正则表达式。改用xpath
。在这里,我创建了一个小函数,给它一个链接来创建语料库
library(XML)
create.corpus <- function(link){
doc <- htmlParse(link)
parag <- xpathSApply(doc,'//p',xmlValue)
library(tm)
cc <- Corpus(VectorSource(parag))
meta(cc,type='corpus','link') <- link
cc
}
## call it
cc <- create.corpus(link)
我会使用
XML
包来实现这一点。然后,应该避免在html/xml文档中使用正则表达式。改用xpath
。在这里,我创建了一个小函数,给它一个链接来创建语料库
library(XML)
create.corpus <- function(link){
doc <- htmlParse(link)
parag <- xpathSApply(doc,'//p',xmlValue)
library(tm)
cc <- Corpus(VectorSource(parag))
meta(cc,type='corpus','link') <- link
cc
}
## call it
cc <- create.corpus(link)
Re:使用专门构建的解析器而不是正则表达式的建议,每个人都必须查看以下内容的认可答案:Re:使用专门构建的解析器而不是正则表达式的建议,每个人都必须查看以下内容的认可答案:Re:使用专门构建的解析器而不是正则表达式的建议,每个人都必须查看以下内容的已批准答案:Re:关于使用专门构建的解析器而不是正则表达式的建议,每个人都必须查看以下内容的已批准答案: