R文本挖掘包DocumentTermMatrix在控制列表中有一个字典，占用了太多的内存_R_Memory Management_Text Mining_Tm_Term Document Matrix

R文本挖掘包DocumentTermMatrix在控制列表中有一个字典，占用了太多的内存

r memory-management

R文本挖掘包DocumentTermMatrix在控制列表中有一个字典，占用了太多的内存,r,memory-management,text-mining,tm,term-document-matrix,R,Memory Management,Text Mining,Tm,Term Document Matrix,我注意到DocumentTermMatrix（myCorpus，control=list（dictionary=myDict））比DocumentTermMatrix（myCorpus）为什么会这样有线索吗以下是代码片段： library(tm) library(XML) source("MyXMLReader.r") # contains the myXML reader code myCorpus <- Corpus(DirSource(paste(basepath,"corp

我注意到

DocumentTermMatrix（myCorpus，control=list（dictionary=myDict））

比

DocumentTermMatrix（myCorpus）

为什么会这样

有线索吗

以下是代码片段：

library(tm)
library(XML)
source("MyXMLReader.r") # contains the myXML reader code 
myCorpus <- Corpus(DirSource(paste(basepath,"corpus",sep=""))
readerControl = list(reader = myXMLReader))
myDict = unlist(readLines("some-file-containing-a-fixed-vocab"))

我猜是内存泄漏和可能的bug。

将您的问题放到上下文中。你在使用什么软件包，你在尝试做什么，到目前为止你做了什么来确定行为……感谢Roman Lustrik，我正在使用R文本挖掘软件包来索引语料库。这是代码片段库（tm）库（XML）源代码（“MyXMLReader.r”）#包含myXML阅读器代码myCorpus您能提供一些数据吗？如果我们没有数据，任何人都无法复制。这是5年前提出的问题，不知道是什么版本，但它必须是非常旧的版本，没有说明内存使用的任何数字，也没有数据集，因此我们无法复制。投票以不可复制的方式结束。。。

dtm = DocumentTermMatrix(mYCorpus) # takes very little extra RAM to do this
dtm = DocumentTermMatrix(myCorpus,control=list(dictionary=myDict)) # Takes a whole lot of # RAM` which is not even released after dtm is formed...