在R中标记列时,如何使用NGramTokenizer获得每行中的最大字数?

在R中标记列时,如何使用NGramTokenizer获得每行中的最大字数?,r,tokenize,R,Tokenize,我正在尝试标记一列职位描述,以显示最常见的4到6个单词短语。 我一直在使用带有Weka_控件的NGramTokenizer函数来设置最大字数;然而,我得到的是每行大量的单词,而不是最多六个单词(见下面的输出)。我的数据文件中也有重复的工作描述(因为两个以上的人可以有相同的工作),所以我不知道重复是否会导致一些问题 mycorpus <- Corpus(VectorSource(gads_cleaned)) mycorpus <- tm_map(mycorpus, stripWhite

我正在尝试标记一列职位描述,以显示最常见的4到6个单词短语。
我一直在使用带有Weka_控件的NGramTokenizer函数来设置最大字数;然而,我得到的是每行大量的单词,而不是最多六个单词(见下面的输出)。我的数据文件中也有重复的工作描述(因为两个以上的人可以有相同的工作),所以我不知道重复是否会导致一些问题

mycorpus <- Corpus(VectorSource(gads_cleaned))
mycorpus <- tm_map(mycorpus, stripWhitespace)
mycorpus <- tm_map(mycorpus, content_transformer(tolower))
mycorpus <- tm_map(mycorpus, removeWords, stopwords("english"))
mycorpus <- tm_map(mycorpus, removePunctuation)
mycorpus <- tm_map(mycorpus, PlainTextDocument)


minfreq_bigram <- 4 

token_delim <- "\\t\\r\\n.!?,;\"()"
token <- NGramTokenizer(mycorpus, Weka_control(min=4, max = 6, delimiters = 
token_delim))
words <- data.frame((table(token)))
sort_words <- words[order(words$Freq,decreasing = TRUE),]
wordcloud(sort_words$token, sort_words$Freq,random.order = FALSE,min.freq = 
minfreq_bigram, max.words = 200)
mycorpus