数据集列的网络分析和stopwords的使用
我一直在处理一个数据集,但当我在中插入代码时,会得到所有单词,如“in”和“in”。我试图删除这些常用词。我知道我需要使用stopwords函数,但我不确定在哪里输入,以及输入后使用什么命令?我想找出除“in”之外,用于描述清单的词最多的词是“what”数据集列的网络分析和stopwords的使用,r,R,我一直在处理一个数据集,但当我在中插入代码时,会得到所有单词,如“in”和“in”。我试图删除这些常用词。我知道我需要使用stopwords函数,但我不确定在哪里输入,以及输入后使用什么命令?我想找出除“in”之外,用于描述清单的词最多的词是“what” nycab$name看起来您正在使用quanteda,所以请去掉代码中的tm部分,即语料库行 您可以使用dfm\u remove删除停止字 nycwords_dfm <- dfm(nycab$name) # remove stopwor
nycab$name看起来您正在使用quanteda,所以请去掉代码中的tm部分,即语料库行
您可以使用dfm\u remove
删除停止字
nycwords_dfm <- dfm(nycab$name)
# remove stopwords
nycwords_dfm <- dfm_remove(nycwords_dfm, stopwords("english"))
# rest of your code
...
nycwords\u-dfm工作得很好。我还有一个问题。我的中央群集有一个/,-,+1
。我该如何删除这个?
nycwords_dfm <- dfm(nycab$name)
# remove stopwords
nycwords_dfm <- dfm_remove(nycwords_dfm, stopwords("english"))
# rest of your code
...
# remove punctuation and stopwords via tokens
nycwords_toks <- tokens(nycab$name, remove_punct = TRUE)
nycwords_toks <- tokens_remove(nycwords_toks, stopwords("english"))
nycwords_dfm <- dfm(nycwords_toks)
# rest of your code
....