R 将要列表的字符向量绑定到数据帧中

R 将要列表的字符向量绑定到数据帧中,r,base,tm,httr,R,Base,Tm,Httr,我有一个URL列表,并提取了如下内容: library(httr) link="http://www.workerspower.net/disposable-workers-the-real-price-of-sweat-shop-labor" get.link=GET(link) get.content=content(x2,as="text") extract.content=str_extract_all(y2,"<p>(.*?)</p>") 有人知道如何将字符[

我有一个URL列表,并提取了如下内容:

library(httr)
link="http://www.workerspower.net/disposable-workers-the-real-price-of-sweat-shop-labor"
get.link=GET(link)
get.content=content(x2,as="text")
extract.content=str_extract_all(y2,"<p>(.*?)</p>")

有人知道如何将字符[向量]与字符[列表]组合在一起吗?

我会使用
XML
包来实现这一点。然后,应该避免在html/xml文档中使用正则表达式。改用
xpath
。在这里,我创建了一个小函数,给它一个链接来创建语料库

library(XML)
create.corpus <- function(link){
  doc <- htmlParse(link)
  parag <- xpathSApply(doc,'//p',xmlValue)
  library(tm)
  cc <- Corpus(VectorSource(parag))
  meta(cc,type='corpus','link') <- link
  cc
}
## call it 
cc <- create.corpus(link)

我会使用
XML
包来实现这一点。然后,应该避免在html/xml文档中使用正则表达式。改用
xpath
。在这里,我创建了一个小函数,给它一个链接来创建语料库

library(XML)
create.corpus <- function(link){
  doc <- htmlParse(link)
  parag <- xpathSApply(doc,'//p',xmlValue)
  library(tm)
  cc <- Corpus(VectorSource(parag))
  meta(cc,type='corpus','link') <- link
  cc
}
## call it 
cc <- create.corpus(link)

我会使用
XML
包来实现这一点。然后,应该避免在html/xml文档中使用正则表达式。改用
xpath
。在这里,我创建了一个小函数,给它一个链接来创建语料库

library(XML)
create.corpus <- function(link){
  doc <- htmlParse(link)
  parag <- xpathSApply(doc,'//p',xmlValue)
  library(tm)
  cc <- Corpus(VectorSource(parag))
  meta(cc,type='corpus','link') <- link
  cc
}
## call it 
cc <- create.corpus(link)

我会使用
XML
包来实现这一点。然后,应该避免在html/xml文档中使用正则表达式。改用
xpath
。在这里,我创建了一个小函数,给它一个链接来创建语料库

library(XML)
create.corpus <- function(link){
  doc <- htmlParse(link)
  parag <- xpathSApply(doc,'//p',xmlValue)
  library(tm)
  cc <- Corpus(VectorSource(parag))
  meta(cc,type='corpus','link') <- link
  cc
}
## call it 
cc <- create.corpus(link)

Re:使用专门构建的解析器而不是正则表达式的建议,每个人都必须查看以下内容的认可答案:Re:使用专门构建的解析器而不是正则表达式的建议,每个人都必须查看以下内容的认可答案:Re:使用专门构建的解析器而不是正则表达式的建议,每个人都必须查看以下内容的已批准答案:Re:关于使用专门构建的解析器而不是正则表达式的建议,每个人都必须查看以下内容的已批准答案: