R文本挖掘包DocumentTermMatrix在控制列表中有一个字典,占用了太多的内存

R文本挖掘包DocumentTermMatrix在控制列表中有一个字典,占用了太多的内存,r,memory-management,text-mining,tm,term-document-matrix,R,Memory Management,Text Mining,Tm,Term Document Matrix,我注意到DocumentTermMatrix(myCorpus,control=list(dictionary=myDict))比DocumentTermMatrix(myCorpus) 为什么会这样 有线索吗 以下是代码片段: library(tm) library(XML) source("MyXMLReader.r") # contains the myXML reader code myCorpus <- Corpus(DirSource(paste(basepath,"corp

我注意到
DocumentTermMatrix(myCorpus,control=list(dictionary=myDict))
DocumentTermMatrix(myCorpus)

为什么会这样

有线索吗

以下是代码片段:

library(tm)
library(XML)
source("MyXMLReader.r") # contains the myXML reader code 
myCorpus <- Corpus(DirSource(paste(basepath,"corpus",sep=""))
readerControl = list(reader = myXMLReader))
myDict = unlist(readLines("some-file-containing-a-fixed-vocab"))

我猜是内存泄漏和可能的bug。

将您的问题放到上下文中。你在使用什么软件包,你在尝试做什么,到目前为止你做了什么来确定行为……感谢Roman Lustrik,我正在使用R文本挖掘软件包来索引语料库。这是代码片段库(tm)库(XML)源代码(“MyXMLReader.r”)#包含myXML阅读器代码myCorpus您能提供一些数据吗?如果我们没有数据,任何人都无法复制。这是5年前提出的问题,不知道是什么版本,但它必须是非常旧的版本,没有说明内存使用的任何数字,也没有数据集,因此我们无法复制。投票以不可复制的方式结束。。。
dtm = DocumentTermMatrix(mYCorpus) # takes very little extra RAM to do this
dtm = DocumentTermMatrix(myCorpus,control=list(dictionary=myDict)) # Takes a whole lot of # RAM` which is not even released after dtm is formed...