Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/r/80.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
绘制随时间变化的bigram TF.IDF值_R_Text Mining_Corpus - Fatal编程技术网

绘制随时间变化的bigram TF.IDF值

绘制随时间变化的bigram TF.IDF值,r,text-mining,corpus,R,Text Mining,Corpus,我试图从一段时间内收集的文件中绘制bigram的TF.IDF。这是为了检测单词重要性的趋势。文本来自SQL server的数据集。它有两列,一列是我想要标记器和数据挖掘的事件文本,另一列表示文本所属的时间段(1/2010、2/2010等等)。我可以多次查询SQL,并为每个时段创建多个语料库,但这并不高效。我宁愿调用我的查询一次,然后将所有内容返回到一个数据集和一个统一的语料库中 我心里有一个伪代码,但不确定它是否正确 While Loop Get subset of unified corpu

我试图从一段时间内收集的文件中绘制bigram的TF.IDF。这是为了检测单词重要性的趋势。文本来自SQL server的数据集。它有两列,一列是我想要标记器和数据挖掘的事件文本,另一列表示文本所属的时间段(1/2010、2/2010等等)。我可以多次查询SQL,并为每个时段创建多个语料库,但这并不高效。我宁愿调用我的查询一次,然后将所有内容返回到一个数据集和一个统一的语料库中

我心里有一个伪代码,但不确定它是否正确

While Loop

Get subset of unified corpus for a given month
Convert the subset to dtm
Calculate tf-idf
Save tf-idf value to a list (hash table) with a key of (i am not sure yet)

Until last month

Plot the tf-idf for a given bi-gram over the month
到目前为止,我在下面有这个,还没有得到任何关于如何进行的想法。如何根据时间段将统一的语料库子集为单独的语料库?或者如何将月份和年份关联到语料库?假设下面的逻辑是解决问题的正确方法,当我得到一个tfxidf列表时,如何为给定的二元图绘制tfxidf

多谢各位

list_corpora <- lapply(1:length(list_text), function(i) Corpus(VectorSource(list_exam[[i]])))

skipWords <- function(x) removeWords(x, stopwords("english"))
funcs <- list(tolower, removePunctuation, removeNumbers, stripWhitespace, skipWords)
list_corpora <- lapply(1:length(list_corpora), function(i) tm_map(list_corpora[[i]], FUN = tm_reduce, tmFuns = funcs))

BigramTokenizer <- function(x) NGramTokenizer(x, Weka_control(min = 2, max = 2))

list_dtms <- lapply(1:length(list_corpora), function(i) TermDocumentMatrix(list_corpora1[[i]], control = list(tokenize = BigramTokenizer)))

list_tfxidf <- lapply(1:length(list_corpora), function(i) weightTfIdf(list_corpora[[i]])
list\u语料库