R-情绪分析-如何删除某些单词

R-情绪分析-如何删除某些单词,r,twitter,gsub,sentiment-analysis,R,Twitter,Gsub,Sentiment Analysis,我有下面的代码为我的Twitter情绪分析创建干净的文本。我想添加另一行,以删除某些我不想包含在本分析中的单词,如“垃圾”、“生病”等。请有人建议如何操作 tweets <- searchTwitter("iPhone", n=1500, lang="en") txt <- sapply(tweets, function(x) x$getText()) txt <- gsub("(RT|via)((?:\\b\\W*@\\w+)+)", "", txt) txt <- g

我有下面的代码为我的Twitter情绪分析创建干净的文本。我想添加另一行,以删除某些我不想包含在本分析中的单词,如“垃圾”、“生病”等。请有人建议如何操作

tweets <- searchTwitter("iPhone", n=1500, lang="en")
txt <- sapply(tweets, function(x) x$getText())
txt <- gsub("(RT|via)((?:\\b\\W*@\\w+)+)", "", txt)
txt <- gsub("@\\w+", "", txt)
txt <- gsub("[[:punct:]]", "", txt)
txt <- gsub("[[:digit:]]", "", txt)
txt <- gsub("http\\w+", "", txt)
txt <- gsub("[ \t]{2,}", "", txt)
txt <- gsub("^\\s+|\\s+$", "", txt)
tweets使用R中最新的“tm”软件包,您可以删除单词

library(tm)
myCorpOld <- Corpus(VectorSource(YourFirstDFonTweet$text)
library(tm)

myCorpOld Ryo。。我想你可能读过这个博客:你可以矢量化
gsub
。退房这也简化了代码。是否有其他方法可以使用
gsub
删除这两个单词?使用gsub,一次只能删除一个单词。例如,您有一条推特:数据非常感谢Manoj@Ryo我忘了一件事,当您使用gsub删除一些单词时,可能会创建一个空白。如果这些会影响你的情绪评分,你可以使用gsub来去除空白,尽管这些不会影响你的情绪评分
#remove "crap" and "sick" from 
txt <- setdiff(say_txt, c("crap", "sick"))

#remove these form corpus
myCorpUpdate <- tm_map(myCorpOld, txt)