提取R中的精确词_R_Html Parsing_Extract

提取R中的精确词

提取R中的精确词,r,html-parsing,extract,R,Html Parsing,Extract,我想从一个变量（实际上是url）中提取一些精确的单词，并创建一个只包含提取单词的新变量。检查模式时，我发现我需要字符\\>和，如下所示： > dados$source[1:20] [1] "<a href=\\\"http://twitter.com/download/iphone\\\" rel=\\\"nofollow\\\">Twitter for iPhone</a>" [2] "<a href=\\\"http://twitter.com/

我想从一个变量（实际上是url）中提取一些精确的单词，并创建一个只包含提取单词的新变量。检查模式时，我发现我需要字符\\>和，如下所示：

> dados$source[1:20]
 [1] "<a href=\\\"http://twitter.com/download/iphone\\\" rel=\\\"nofollow\\\">Twitter for iPhone</a>"  

 [2] "<a href=\\\"http://twitter.com/download/android\\\" rel=\\\"nofollow\\\">Twitter for Android</a>"

 [3] "<a href=\\\"http://twitter.com\\\" rel=\\\"nofollow\\\">Twitter Web Client</a>"

我该怎么做呢？

我不确定我是否完全理解您想要提取的模式。然而，使用正则表达式将是一条出路。问题中的一个例子：

如果您有HTML，请使用像rvest这样的HTML解析器来解析字符串。一旦获得了非HTML字符串，就可以使用正则表达式

library(purrr)    # use lapply and sapply if you prefer
library(rvest)

# representative data
links <- c("<a href=\\\"http://twitter.com/download/iphone\\\" rel=\\\"nofollow\\\">Twitter for iPhone</a>", 
    "<a href=\\\"http://twitter.com/download/android\\\" rel=\\\"nofollow\\\">Twitter for Android</a>", 
    "<a href=\\\"http://twitter.com\\\" rel=\\\"nofollow\\\">Twitter Web Client</a>")

links %>% map(read_html) %>% 
    map_chr(html_text) %>% 
    sub('Twitter (for )?', '', .)

## [1] "iPhone"     "Android"    "Web Client"

如果链接是上面的数据，比如librarypurr；图书馆服务；链接%>%mapread\u html%>%map\u chrhtml\u文本取决于您试图获取的内容，这还不清楚。dputdados$source[1:20]@alistaire抱歉，我想获取设备，即iPhone、Android、Web客户端等。。。

library(purrr)    # use lapply and sapply if you prefer
library(rvest)

# representative data
links <- c("<a href=\\\"http://twitter.com/download/iphone\\\" rel=\\\"nofollow\\\">Twitter for iPhone</a>", 
    "<a href=\\\"http://twitter.com/download/android\\\" rel=\\\"nofollow\\\">Twitter for Android</a>", 
    "<a href=\\\"http://twitter.com\\\" rel=\\\"nofollow\\\">Twitter Web Client</a>")

links %>% map(read_html) %>% 
    map_chr(html_text) %>% 
    sub('Twitter (for )?', '', .)

## [1] "iPhone"     "Android"    "Web Client"