如何在quanteda dfm中维护ngrams?

如何在quanteda dfm中维护ngrams?,r,n-gram,quanteda,R,N Gram,Quanteda,我使用quanteda从tokens对象创建文档特征矩阵(dfm)。My tokens对象包含许多ngram(例如:“美国”)。当我使用dfm()函数创建dfm时,我的ngram被UnderTCore分割(“美国”被分割为“美国”)。如何在维护ngrams的同时创建dfm 以下是我的流程: my_tokens <- tokens(my_corpus, remove_symbols=TRUE, remove_punct = TRUE, remove_numbers = TRUE) my_to

我使用quanteda从tokens对象创建文档特征矩阵(dfm)。My tokens对象包含许多ngram(例如:“美国”)。当我使用dfm()函数创建dfm时,我的ngram被UnderTCore分割(“美国”被分割为“美国”)。如何在维护ngrams的同时创建dfm

以下是我的流程:

my_tokens <- tokens(my_corpus, remove_symbols=TRUE, remove_punct = TRUE, remove_numbers = TRUE)
my_tokens <- tokens_compound(pattern=phrase(my_ngrams))
my_dfm <- dfm(my_tokens, stem= FALSE, tolower=TRUE)

my_tokens不清楚您使用的是哪个版本的quanteda,但基本上这应该可以工作,因为默认的标记器(来自
tokens()
)不会拆分包含内部
的单词

演示:

库(“quanteda”)
##软件包版本:2.1.1
#tokens()不会分隔单词
代币(“美国”)
##由1个文档组成的令牌。
##正文1:
##[1]“美国”
这里有一个“美国”的重复例子:

myu语料库