R 使用正则表达式获取所有hashtag
我正在我的一个课程中学习最近的hashtagR 使用正则表达式获取所有hashtag,r,regex,R,Regex,我正在我的一个课程中学习最近的hashtag#BalanceTonPorc。我试图在tweet中找到所有出现的这个标签,但是当然没有人使用相同的格式 有些人使用#BalanceTonPorc,有些人使用#BalanceTonPorc,等等 使用gsub,到目前为止,我已经完成了以下工作: df$hashtags <- gsub(".alance.on.orc", "BalanceTonPorc", df$hashtags) df$hashtags您可以使用[^,]*匹配任何字符,但,,0
#BalanceTonPorc
。我试图在tweet中找到所有出现的这个标签,但是当然没有人使用相同的格式
有些人使用#BalanceTonPorc
,有些人使用#BalanceTonPorc
,等等
使用gsub
,到目前为止,我已经完成了以下工作:
df$hashtags <- gsub(".alance.on.orc", "BalanceTonPorc", df$hashtags)
df$hashtags您可以使用[^,]*
匹配任何字符,但,
,0+次:
gsub(".alance.on.orc[^,]*", "BalanceTonPorc", df$hashtags)
或者,为了精确匹配BalanceTonProc
gsub("balancetonporc[^,]*", "BalanceTonPorc", df$hashtags, ignore.case=TRUE)
见a和a:
x[1]“#balancetonproc”#balancetonproc,text”
非常感谢!我不知道忽略。案例,那很酷!关于我的第二个问题,它只是一个R没有显示的空间问题,我也使用[^,]*
解决了它。祝你今天愉快:)@ArnaudStephan另外,请查看更多关于。如果你问我的话,这是一个非常有用和有效的构造。
x <- c("#balancetonPorc#%$%#$%^","#balancetonporc#%$%, text")
gsub("balancetonporc[^,]*", "BalanceTonPorc", x, ignore.case=TRUE)
# => [1] "#BalanceTonPorc" "#BalanceTonPorc, text"