R中的文本挖掘帮助

R中的文本挖掘帮助,r,text-mining,R,Text Mining,我是新来的,在文本挖掘过程中,我正在寻找有关R as.matrix()的帮助。下面将介绍代码 我正在与378661 obs合作。1个变量 title_txt <- "H:/Desktop/IST719/titles.txt" titlefile <- scan(title_txt, character(0), sep = "\n") head(titlefile) title.vec <- VectorSource(titlefile) title.corpus <-

我是新来的,在文本挖掘过程中,我正在寻找有关R as.matrix()的帮助。下面将介绍代码

我正在与378661 obs合作。1个变量

title_txt <- "H:/Desktop/IST719/titles.txt"
titlefile <- scan(title_txt, character(0), sep = "\n")
head(titlefile)

title.vec <- VectorSource(titlefile)
title.corpus <- Corpus(title.vec)
title.corpus

title.corpus <- tm_map(title.corpus, content_transformer(tolower))
title.corpus <- tm_map(title.corpus, removePunctuation)
title.corpus <- tm_map(title.corpus, removeNumbers)
title.corpus <- tm_map(title.corpus, removeWords, stopwords("english"))

tdm <- TermDocumentMatrix(title.corpus)
tdm

m <- as.matrix(tdm)
title_txt正如我在对的回答中所指出的,R中矩阵中的每个单元格消耗8个字节。因此,矩阵的大小(字节)是文档数*术语数*8。当将稀疏文档术语矩阵转换为完整矩阵时,稀疏DTM中的空单元会消耗大量RAM

根据您在问题中提供的数据,您试图转换为矩阵的DTM中大约有165459个术语

> sizeInGb <- 466.8
> docs <- 378661
> # calculate number of terms in DTM 
> sizeInGb * (1024 * 1024 * 1024) / (docs * 8)
[1] 165458.9
>sizeInGb文档#计算DTM中的术语数量
>大小b*(1024*1024*1024)/(文档*8)
[1] 165458.9

根据您尝试执行的分析类型,您需要使用文本挖掘包中与文档术语矩阵一起工作的工具来分析数据,或者聚合到一个小于您机器上的RAM量(减去用于创建它的对象所消耗的RAM)的对象

你能告诉我,哪些工具构成了文本挖掘包,我应该使用它们来分析数据,或者指导我阅读一些文本挖掘手册吗?因为我试过quanteda,但它没有像你的例子那样有效。dfm.default(title.corpus,tolower=TRUE,remove=c(stopwords(),:dfm()仅适用于字符、语料库、dfm、标记对象。@B.Choi-如果我已经回答了您最初的问题:当我尝试使用as.matrix()转换文档特征矩阵时,为什么内存不足?,请接受答案并进行投票。关于您关于尝试quanteda的问题,请作为单独的问题(包括a)发布,我们将帮助您解决任何错误消息。请注意,SO不是征求关于如何进行文本挖掘的一般建议的合适场所。