R中连续序列模式的挖掘

R中连续序列模式的挖掘,r,data-mining,tm,R,Data Mining,Tm,我试图使用R挖掘输入数据中频繁出现的连续序列模式,但我不太明白如何做到这一点。我认为使用tm库应该是一种方式 例如,给定以下数据: A,B,A,C A,C,A,B,A,B B,A,A,C,D 。。。而min_support=2,我们应该得到A,B,B,A,A,B,A和A,C模式。 此外,一个子序列在单个序列记录中的多次出现不应计数(因此第二行中的a,B只应计数一次,因此其支持度等于2,而不是3)。如何使用R完成?当我试图遵循指南(从“N-gram字典”开始)时,我无法正确地获取N-gram字典

我试图使用R挖掘输入数据中频繁出现的连续序列模式,但我不太明白如何做到这一点。我认为使用
tm
库应该是一种方式

例如,给定以下数据:

A,B,A,C
A,C,A,B,A,B
B,A,A,C,D
。。。而
min_support=2
,我们应该得到
A,B
B,A
A,B,A
A,C
模式。 此外,一个子序列在单个序列记录中的多次出现不应计数(因此第二行中的
a,B
只应计数一次,因此其支持度等于2,而不是3)。如何使用R完成?当我试图遵循指南(从“N-gram字典”开始)时,我无法正确地获取N-gram字典

以下是我到目前为止得到的代码:

# dummy data
df <- data.frame(doc_id = c(1:3),
                 text = c('AAA BBB AAA CCC', 'AAA CCC AAA BBB AAA BBB', 'BBB AAA AAA CCC DDD'),
                 stringsAsFactors = FALSE)
df_corpus <- tm::Corpus(DataframeSource(df))
BigramTokenizer <- function(x) {
    NGramTokenizer(x, Weka_control(min = 2, max = 2))
} 
bigram <- tm::TermDocumentMatrix(df_corpus, control = list(tokenize = BigramTokenizer)) 
inspect(bigram)
str(bigram)
#虚拟数据

df期望“AAA BBB”等?顺便说一句,您在某些调用中使用了tm::而在其他调用中没有使用。你真的为bigramtokenizer加载了tm和rweka吗?是的,这是我的期望。当我将文本传递到
Weka_control
时,它会给出正确的模式。但由于某些原因,它不适用于
术语DocumentMatrix