Regex 在R中使用哪个正则表达式?

Regex 在R中使用哪个正则表达式?,regex,r,Regex,R,有人知道要使用哪个正则表达式从R中的字符“”中提取此字符stddata\uu 2015\u 02\u 04?您可以假设行乞的stddata_uu201是已知的,只有结尾会不时地改变。>库(“stringr”) > library("stringr") > str_extract("<li><a href=\"stddata__2015_02_04/\"> stddata__2015_02_04/</a></li>", +

有人知道要使用哪个正则表达式从R中的字符
  • 中提取此字符
    stddata\uu 2015\u 02\u 04
    ?您可以假设行乞的stddata_uu201是已知的,只有结尾会不时地改变。

    >库(“stringr”)
    
    > library("stringr")
    > str_extract("<li><a href=\"stddata__2015_02_04/\"> stddata__2015_02_04/</a></li>",
    +             "stddata__201[0-9]_[0-9]{2}_[0-9]{2}")
    [1] "stddata__2015_02_04"
    
    >STRU摘录(“
  • ”, +“stddata_uuuu201[0-9]uuu[0-9]{2}{0-9]{2}”) [1] “stddata_uuu2015_u02_u04”
    首选的解决方案不是正则表达式

    > library("rvest")
    > "<li><a href=\"stddata__2015_02_04/\"> stddata__2015_02_04/</a></li>" %>% 
    +   html() %>% 
    +   html_text()
    [1] " stddata__2015_02_04/"
    
    >库(“rvest”)
    >“
  • ”%% +html()%>% +html_text() [1] “stddata_uuu2015_u02_u04/”
    >库(“stringr”)
    >STRU摘录(“
  • ”, +“stddata_uuuu201[0-9]uuu[0-9]{2}{0-9]{2}”) [1] “stddata_uuu2015_u02_u04”
    首选的解决方案不是正则表达式

    > library("rvest")
    > "<li><a href=\"stddata__2015_02_04/\"> stddata__2015_02_04/</a></li>" %>% 
    +   html() %>% 
    +   html_text()
    [1] " stddata__2015_02_04/"
    
    >库(“rvest”)
    >“
  • ”%% +html()%>% +html_text() [1] “stddata_uuu2015_u02_u04/”
    如果输入为:

    x <- "<li><a href=\"stddata__2015_02_04/\"> stddata__2015_02_04/</a></li>"
    
    给予:

    [1] "stddata__2015_02_04"
    
    下面是正则表达式的可视化:

    .*(stddata__201[_0-9]+).*
    

    如果输入为:

    x <- "<li><a href=\"stddata__2015_02_04/\"> stddata__2015_02_04/</a></li>"
    
    给予:

    [1] "stddata__2015_02_04"
    
    下面是正则表达式的可视化:

    .*(stddata__201[_0-9]+).*
    


    我倾向于同意其他海报,Regex不是最好的方法。然而,如果你真的想用正则表达式来做这件事,那就来吧

    (?<=>\s)([^<>\/])+        # Works in php and python, and most other languages
    
    (?\s)([^\/])+#适用于php和python以及大多数其他语言
    
    我倾向于同意其他海报,Regex不是最好的方法。然而,如果你真的想用正则表达式来做这件事,那就来吧

    (?<=>\s)([^<>\/])+        # Works in php and python, and most other languages
    
    (?\s)([^\/])+#适用于php和python以及大多数其他语言
    
    :“HTML是一种非常复杂的语言,无法用正则表达式解析。即使是Jon Skeet也无法用正则表达式解析HTML。每次你试图用正则表达式解析HTML时,邪恶的孩子都会为处女流下鲜血,而俄罗斯黑客会破坏你的Web应用程序。”[斜体添加]:“HTML是一种非常复杂的语言,它不能被正则表达式解析。即使Jon Skeet也无法使用正则表达式解析HTML。每次你试图用正则表达式解析HTML时,邪恶的孩子都会为处女的鲜血而哭泣,而俄罗斯黑客会为你的网络应用程序而哭泣。”[斜体添加]谢谢。同样的操作也适用于stringi package stri_extract()但是速度更快:)哦!rvest包看起来更好:)!很好的解决方案谢谢。相同的操作在stringi包stri_extract()中工作,但是速度更快:)哦!rvest包看起来更好:)!很好的解决方案