tm和Snowball软件包命令在Linux中运行缓慢

tm和Snowball软件包命令在Linux中运行缓慢,linux,windows,r,tm,snowball,Linux,Windows,R,Tm,Snowball,我在R中使用tm和Snowball包进行文本挖掘。我最初在装有8GB内存的Windows7笔记本电脑上运行它。后来我在一台拥有64GB内存的Linux Ubuntu机器上尝试了同样的方法。这两台机器都是64位的,am也使用64位版本的R。然而,Windows有R3.0.0,而Linux有R2.14 与Windows相比,Linux中的某些命令速度非常慢 语料库命令 在窗户上 这在Windows计算机上只花了47秒 在Linux上 这在Linux机器上花费了大约220秒 雪球堵塞 在窗户上 这在W

我在R中使用tm和Snowball包进行文本挖掘。我最初在装有8GB内存的Windows7笔记本电脑上运行它。后来我在一台拥有64GB内存的Linux Ubuntu机器上尝试了同样的方法。这两台机器都是64位的,am也使用64位版本的R。然而,Windows有R3.0.0,而Linux有R2.14

与Windows相比,Linux中的某些命令速度非常慢

语料库命令

在窗户上

这在Windows计算机上只花了47秒

在Linux上

这在Linux机器上花费了大约220秒

雪球堵塞

在窗户上

这在Windows计算机上只花了12秒

在Linux上

这在Linux机器上花费了大约290秒

有没有办法在Linux机器上加速这些命令?R版本会有如此大的不同吗。多谢各位

Ravi

VectorSource上的语料库似乎比DataframeSource上的语料库要快

你可以试试

d <- chatTranscripts$chatConcat
ds <- VectorSource(d)
Corpus(ds)

R版本可能会有所不同。Tim Hesterberg的工作成果是,在v2.15.1中,R处理数据帧的方式有了很大的性能改进。看见
    t1 <- Sys.time()
    dsc<-Corpus(ds)
    print(Sys.time() - t1)
    Time difference of 3.674376 mins
    t1 <- Sys.time()
    dsc <- tm_map(dsc,stemDocument)
    print(Sys.time() - t1)
    Time difference of 12.05321 secs
    t1 <- Sys.time()
    dsc <- tm_map(dsc,stemDocument)
    print(Sys.time() - t1)
    Time difference of 4.832964 mins
d <- chatTranscripts$chatConcat
ds <- VectorSource(d)
Corpus(ds)