数据集列的网络分析和stopwords的使用

数据集列的网络分析和stopwords的使用,r,R,我一直在处理一个数据集,但当我在中插入代码时,会得到所有单词,如“in”和“in”。我试图删除这些常用词。我知道我需要使用stopwords函数,但我不确定在哪里输入,以及输入后使用什么命令?我想找出除“in”之外,用于描述清单的词最多的词是“what” nycab$name看起来您正在使用quanteda,所以请去掉代码中的tm部分,即语料库行 您可以使用dfm\u remove删除停止字 nycwords_dfm <- dfm(nycab$name) # remove stopwor

我一直在处理一个数据集,但当我在中插入代码时,会得到所有单词,如“in”和“in”。我试图删除这些常用词。我知道我需要使用stopwords函数,但我不确定在哪里输入,以及输入后使用什么命令?我想找出除“in”之外,用于描述清单的词最多的词是“what”


nycab$name看起来您正在使用quanteda,所以请去掉代码中的tm部分,即语料库行

您可以使用
dfm\u remove
删除停止字

nycwords_dfm <- dfm(nycab$name)
# remove stopwords
nycwords_dfm <- dfm_remove(nycwords_dfm, stopwords("english"))

# rest of your code
... 

nycwords\u-dfm工作得很好。我还有一个问题。我的中央群集有一个
/,-,+1
。我该如何删除这个?
nycwords_dfm <- dfm(nycab$name)
# remove stopwords
nycwords_dfm <- dfm_remove(nycwords_dfm, stopwords("english"))

# rest of your code
... 
# remove punctuation and stopwords via tokens
nycwords_toks <- tokens(nycab$name, remove_punct = TRUE)
nycwords_toks <- tokens_remove(nycwords_toks, stopwords("english"))
nycwords_dfm <- dfm(nycwords_toks)

# rest of your code
....