R中连续序列模式的挖掘_R_Data Mining_Tm

R中连续序列模式的挖掘

R中连续序列模式的挖掘,r,data-mining,tm,R,Data Mining,Tm,我试图使用R挖掘输入数据中频繁出现的连续序列模式，但我不太明白如何做到这一点。我认为使用tm库应该是一种方式例如，给定以下数据： A,B,A,C A,C,A,B,A,B B,A,A,C,D 。。。而min_support=2，我们应该得到A，B，B，A，A，B，A和A，C模式。此外，一个子序列在单个序列记录中的多次出现不应计数（因此第二行中的a，B只应计数一次，因此其支持度等于2，而不是3）。如何使用R完成？当我试图遵循指南（从“N-gram字典”开始）时，我无法正确地获取N-gram字典

我试图使用R挖掘输入数据中频繁出现的连续序列模式，但我不太明白如何做到这一点。我认为使用

tm

库应该是一种方式

例如，给定以下数据：

A,B,A,C
A,C,A,B,A,B
B,A,A,C,D

。。。而

min_support=2

，我们应该得到

A，B

，

B，A

，

A，B，A

和

A，C

模式。此外，一个子序列在单个序列记录中的多次出现不应计数（因此第二行中的

a，B

只应计数一次，因此其支持度等于2，而不是3）。如何使用R完成？当我试图遵循指南（从“N-gram字典”开始）时，我无法正确地获取N-gram字典

以下是我到目前为止得到的代码：

# dummy data
df <- data.frame(doc_id = c(1:3),
                 text = c('AAA BBB AAA CCC', 'AAA CCC AAA BBB AAA BBB', 'BBB AAA AAA CCC DDD'),
                 stringsAsFactors = FALSE)
df_corpus <- tm::Corpus(DataframeSource(df))
BigramTokenizer <- function(x) {
    NGramTokenizer(x, Weka_control(min = 2, max = 2))
} 
bigram <- tm::TermDocumentMatrix(df_corpus, control = list(tokenize = BigramTokenizer)) 
inspect(bigram)
str(bigram)

#虚拟数据
df期望“AAA BBB”等？顺便说一句，您在某些调用中使用了tm:：而在其他调用中没有使用。你真的为bigramtokenizer加载了tm和rweka吗？是的，这是我的期望。当我将文本传递到Weka_control
时，它会给出正确的模式。但由于某些原因，它不适用于术语DocumentMatrix