在R中标记列时，如何使用NGramTokenizer获得每行中的最大字数？_R_Tokenize

在R中标记列时，如何使用NGramTokenizer获得每行中的最大字数？

在R中标记列时，如何使用NGramTokenizer获得每行中的最大字数？,r,tokenize,R,Tokenize,我正在尝试标记一列职位描述，以显示最常见的4到6个单词短语。我一直在使用带有Weka_控件的NGramTokenizer函数来设置最大字数；然而，我得到的是每行大量的单词，而不是最多六个单词（见下面的输出）。我的数据文件中也有重复的工作描述（因为两个以上的人可以有相同的工作），所以我不知道重复是否会导致一些问题 mycorpus <- Corpus(VectorSource(gads_cleaned)) mycorpus <- tm_map(mycorpus, stripWhite

我正在尝试标记一列职位描述，以显示最常见的4到6个单词短语。
我一直在使用带有Weka_控件的NGramTokenizer函数来设置最大字数；然而，我得到的是每行大量的单词，而不是最多六个单词（见下面的输出）。我的数据文件中也有重复的工作描述（因为两个以上的人可以有相同的工作），所以我不知道重复是否会导致一些问题

mycorpus <- Corpus(VectorSource(gads_cleaned))
mycorpus <- tm_map(mycorpus, stripWhitespace)
mycorpus <- tm_map(mycorpus, content_transformer(tolower))
mycorpus <- tm_map(mycorpus, removeWords, stopwords("english"))
mycorpus <- tm_map(mycorpus, removePunctuation)
mycorpus <- tm_map(mycorpus, PlainTextDocument)


minfreq_bigram <- 4 

token_delim <- "\\t\\r\\n.!?,;\"()"
token <- NGramTokenizer(mycorpus, Weka_control(min=4, max = 6, delimiters = 
token_delim))
words <- data.frame((table(token)))
sort_words <- words[order(words$Freq,decreasing = TRUE),]
wordcloud(sort_words$token, sort_words$Freq,random.order = FALSE,min.freq = 
minfreq_bigram, max.words = 200)

mycorpus