Regex 在R中拆分文本数据的有效方法
我在做文本挖掘, 假设我的数据集有一个列,其中的文本数据发布在twitter上。 例如 @约翰:这真是一场精彩的比赛work@lita结帐这是惊人的@Amy great应用程序 我想检查一下,将此拆分为@john这是一个很棒的作品,@lita checkout这太棒了,@Amy很棒的应用程序 然后我想看看谁最初发布了,谁又重新发布了 注:在R中安装“sna”软件包时,我面临另一个问题,因为它没有显示这样的软件包 你可以试试Regex 在R中拆分文本数据的有效方法,regex,r,twitter,split,text-mining,Regex,R,Twitter,Split,Text Mining,我在做文本挖掘, 假设我的数据集有一个列,其中的文本数据发布在twitter上。 例如 @约翰:这真是一场精彩的比赛work@lita结帐这是惊人的@Amy great应用程序 我想检查一下,将此拆分为@john这是一个很棒的作品,@lita checkout这太棒了,@Amy很棒的应用程序 然后我想看看谁最初发布了,谁又重新发布了 注:在R中安装“sna”软件包时,我面临另一个问题,因为它没有显示这样的软件包 你可以试试 strsplit(str1, '(?<=[^@]) ?(?=@)
strsplit(str1, '(?<=[^@]) ?(?=@)', perl=TRUE)[[1]]
#[1] "@john Its a fantastic work" "@lita checkout this is amazing"
#[3] "@Amy great App"
strsplit(str1),(?你可以试试
strsplit(str1, '(?<=[^@]) ?(?=@)', perl=TRUE)[[1]]
#[1] "@john Its a fantastic work" "@lita checkout this is amazing"
#[3] "@Amy great App"
strsplit(str1),(?它只对字符串起作用,而不是对具有此类文本strsplit(数据集$text),(?@AmarjeetSahoo,您能否删除[[1]]]
,并查看是否可以在列表中获得输出在strsplit(数据集$text)中获得此错误,“(?@AmarjeetSahoo我想你的列是一个因素。试试strsplit(as.character(Dataset$text),…)
它只对字符串起作用,而不是对整个变量有这样的文本strsplit(Dataset$text),(?@AmarjeetSahoo,你能删除[[1]]
并查看是否可以在列表中获得输出已完成在strsplit(数据集$text,“(?@AmarjeetSahoo我猜您的列是一个因素。请尝试strsplit(as.character(数据集$text),…)
包sna
存在:包sna
存在: