Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/sql-server-2005/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
R 删除包含某个子字符串的单词_R_Text Mining_Tm_Corpus - Fatal编程技术网

R 删除包含某个子字符串的单词

R 删除包含某个子字符串的单词,r,text-mining,tm,corpus,R,Text Mining,Tm,Corpus,所以我做了一个函数,在单词库中接收,然后吐出一个干净的产品: corpus_creater <- function(corpus){ corpus <- tm_map(corpus, removePunctuation) corpus <- tm_map(corpus, content_transformer(tolower)) corpus <- tm_map(corpus, removeWords, stopwords("english")) corpus <-

所以我做了一个函数,在单词库中接收,然后吐出一个干净的产品:

corpus_creater <- function(corpus){
corpus <- tm_map(corpus, removePunctuation)
corpus <- tm_map(corpus, content_transformer(tolower))
corpus <- tm_map(corpus, removeWords, stopwords("english"))
corpus <- tm_map(corpus, stripWhitespace)
corpus <- tm_map(corpus, stemDocument)
}

corpus\u creater如果您直接获取语料库作为输入,您可以使用
sapply
提取语料库的
内容
,然后从语料库中删除具有所需字符串的文档

您可以通过以下方式将其集成到您的函数中:

corpus_creater <- function(corpus){
   corpus <- tm_map(corpus, removePunctuation)
   corpus <- tm_map(corpus, content_transformer(tolower))
   corpus <- tm_map(corpus, removeWords, stopwords("english"))
   corpus <- tm_map(corpus, stripWhitespace)
   corpus <- tm_map(corpus, stemDocument)
   #Added the below line
   corpus <- corpus[-grep("http", sapply(corpus, `[`, 1))]
}

corpus\u创建者感谢您的回复!我试图将其集成到我的函数中,它返回错误“'names'属性[2000]必须与向量[3]相同长度”。我添加了一个
语料库谢谢,它似乎消除了错误。然而,当我试图用代码生成我的wordcloud时(我在OP中添加了wordcloud的代码),它没有生成一个,显然是因为空值。有没有一种方法可以删除这个词,而不是为了wordcloud的目的而使它为空??错误是:
Error-in-use-method(“TermDocumentMatrix”,x):没有适用于类为“NULL”的对象的“TermDocumentMatrix”的方法。
@Yeahprettymuch您可以尝试更新版本的答案吗?现在效果非常好,非常感谢!!!wordcloud以前有很多“http”,但现在它们都消失了!
corpus_creater <- function(corpus){
   corpus <- tm_map(corpus, removePunctuation)
   corpus <- tm_map(corpus, content_transformer(tolower))
   corpus <- tm_map(corpus, removeWords, stopwords("english"))
   corpus <- tm_map(corpus, stripWhitespace)
   corpus <- tm_map(corpus, stemDocument)
   #Added the below line
   corpus <- corpus[-grep("http", sapply(corpus, `[`, 1))]
}