R文本挖掘包DocumentTermMatrix在控制列表中有一个字典,占用了太多的内存
我注意到R文本挖掘包DocumentTermMatrix在控制列表中有一个字典,占用了太多的内存,r,memory-management,text-mining,tm,term-document-matrix,R,Memory Management,Text Mining,Tm,Term Document Matrix,我注意到DocumentTermMatrix(myCorpus,control=list(dictionary=myDict))比DocumentTermMatrix(myCorpus) 为什么会这样 有线索吗 以下是代码片段: library(tm) library(XML) source("MyXMLReader.r") # contains the myXML reader code myCorpus <- Corpus(DirSource(paste(basepath,"corp
DocumentTermMatrix(myCorpus,control=list(dictionary=myDict))
比DocumentTermMatrix(myCorpus)
为什么会这样
有线索吗
以下是代码片段:
library(tm)
library(XML)
source("MyXMLReader.r") # contains the myXML reader code
myCorpus <- Corpus(DirSource(paste(basepath,"corpus",sep=""))
readerControl = list(reader = myXMLReader))
myDict = unlist(readLines("some-file-containing-a-fixed-vocab"))
我猜是内存泄漏和可能的bug。将您的问题放到上下文中。你在使用什么软件包,你在尝试做什么,到目前为止你做了什么来确定行为……感谢Roman Lustrik,我正在使用R文本挖掘软件包来索引语料库。这是代码片段库(tm)库(XML)源代码(“MyXMLReader.r”)#包含myXML阅读器代码myCorpus您能提供一些数据吗?如果我们没有数据,任何人都无法复制。这是5年前提出的问题,不知道是什么版本,但它必须是非常旧的版本,没有说明内存使用的任何数字,也没有数据集,因此我们无法复制。投票以不可复制的方式结束。。。
dtm = DocumentTermMatrix(mYCorpus) # takes very little extra RAM to do this
dtm = DocumentTermMatrix(myCorpus,control=list(dictionary=myDict)) # Takes a whole lot of # RAM` which is not even released after dtm is formed...