绘制随时间变化的bigram TF.IDF值_R_Text Mining_Corpus

绘制随时间变化的bigram TF.IDF值

绘制随时间变化的bigram TF.IDF值,r,text-mining,corpus,R,Text Mining,Corpus,我试图从一段时间内收集的文件中绘制bigram的TF.IDF。这是为了检测单词重要性的趋势。文本来自SQL server的数据集。它有两列，一列是我想要标记器和数据挖掘的事件文本，另一列表示文本所属的时间段（1/2010、2/2010等等）。我可以多次查询SQL，并为每个时段创建多个语料库，但这并不高效。我宁愿调用我的查询一次，然后将所有内容返回到一个数据集和一个统一的语料库中我心里有一个伪代码，但不确定它是否正确 While Loop Get subset of unified corpu

我试图从一段时间内收集的文件中绘制bigram的TF.IDF。这是为了检测单词重要性的趋势。文本来自SQL server的数据集。它有两列，一列是我想要标记器和数据挖掘的事件文本，另一列表示文本所属的时间段（1/2010、2/2010等等）。我可以多次查询SQL，并为每个时段创建多个语料库，但这并不高效。我宁愿调用我的查询一次，然后将所有内容返回到一个数据集和一个统一的语料库中

我心里有一个伪代码，但不确定它是否正确

While Loop

Get subset of unified corpus for a given month
Convert the subset to dtm
Calculate tf-idf
Save tf-idf value to a list (hash table) with a key of (i am not sure yet)

Until last month

Plot the tf-idf for a given bi-gram over the month

到目前为止，我在下面有这个，还没有得到任何关于如何进行的想法。如何根据时间段将统一的语料库子集为单独的语料库？或者如何将月份和年份关联到语料库？假设下面的逻辑是解决问题的正确方法，当我得到一个tfxidf列表时，如何为给定的二元图绘制tfxidf

多谢各位

list_corpora <- lapply(1:length(list_text), function(i) Corpus(VectorSource(list_exam[[i]])))

skipWords <- function(x) removeWords(x, stopwords("english"))
funcs <- list(tolower, removePunctuation, removeNumbers, stripWhitespace, skipWords)
list_corpora <- lapply(1:length(list_corpora), function(i) tm_map(list_corpora[[i]], FUN = tm_reduce, tmFuns = funcs))

BigramTokenizer <- function(x) NGramTokenizer(x, Weka_control(min = 2, max = 2))

list_dtms <- lapply(1:length(list_corpora), function(i) TermDocumentMatrix(list_corpora1[[i]], control = list(tokenize = BigramTokenizer)))

list_tfxidf <- lapply(1:length(list_corpora), function(i) weightTfIdf(list_corpora[[i]])

list\u语料库