R 语料库中的单词数_R_Text Mining

R 语料库中的单词数

R 语料库中的单词数,r,text-mining,R,Text Mining,我正在寻找一种方法来查找文本中最常用的单词，我正在使用R。我所说的最频繁，是指其低频率为语料库中单词的1%的单词。所以我需要计算语料库中的单词数量以下是我的代码，到目前为止： #!/usr/bin/Rscript library('tm') library('wordcloud') library('RColorBrewer') twittercorpus <- system.file("stream","~/txt", package = "tm") twittercorpus &l

我正在寻找一种方法来查找文本中最常用的单词，我正在使用R。我所说的最频繁，是指其低频率为语料库中单词的1%的单词。所以我需要计算语料库中的单词数量

以下是我的代码，到目前为止：

#!/usr/bin/Rscript
library('tm')
library('wordcloud')
library('RColorBrewer')
twittercorpus <- system.file("stream","~/txt", package = "tm")
twittercorpus <- Corpus(DirSource("~/txt"),
                        readerControl=list(languageEl = "en"))
twittercorpus <- tm_map(twittercorpus, removeNumbers)
twittercorpus <- tm_map(twittercorpus,tolower)
twittercorpus <- tm_map(twittercorpus,removePunctuation)
my_stopwords <- c(stopwords("SMART"))
twittercorpus <-tm_map(twittercorpus,removeWords,my_stopwords)
mydata.dtm <- TermDocumentMatrix(twittercorpus)

#/usr/bin/Rscript
图书馆（“tm”）
库（'wordcloud'）
库（'RColorBrewer'）
twittercorpus如果您查看str（mydata.dtm）
有一个名为nrow
的命名组件。使用以下命令：
freqmatrix <- findFreqTerms(mydata.dtm, lowfreq=mydata.dtm$nrow/100)

频率矩阵
freqmatrix <- findFreqTerms(mydata.dtm, lowfreq=mydata.dtm$nrow/100)