Java Mallet主题建模

Java Mallet主题建模,java,nlp,machine-learning,mallet,Java,Nlp,Machine Learning,Mallet,我一直在使用mallet为一个包含100000行的文本文件推断主题(mallet格式大约34 MB)。但是现在我需要在一个包含一百万行(大约180MB)的文件上运行它,我得到一个java.lang.outofmemory异常。有没有办法将文件拆分成更小的文件,并为所有合并文件中的数据建立模型?? 提前感谢我不确定Mallet对大数据的可扩展性,但project可以将其数据存储在磁盘备份的持久性中,因此可以扩展到无限的语料库大小(当然性能很低)即使它从多个文件读取数据,该模型仍然会非常庞大。您是否

我一直在使用mallet为一个包含100000行的文本文件推断主题(mallet格式大约34 MB)。但是现在我需要在一个包含一百万行(大约180MB)的文件上运行它,我得到一个java.lang.outofmemory异常。有没有办法将文件拆分成更小的文件,并为所有合并文件中的数据建立模型??
提前感谢

我不确定Mallet对大数据的可扩展性,但project可以将其数据存储在磁盘备份的持久性中,因此可以扩展到无限的语料库大小(当然性能很低)

即使它从多个文件读取数据,该模型仍然会非常庞大。您是否尝试过增加java虚拟机的堆大小

考虑到当前PC的内存大小,使用2GB大小的堆应该很容易。
在考虑使用集群之前,您应该尝试单机解决方案。

java.lang.outofmemory异常主要是因为堆空间不足。
您可以使用-Xms和-Xmx设置堆空间,使其不再出现。

bin/mallet.bat中增加此行的值:

set MALLET_MEMORY=1G

不过看起来龙工具包已经死了。自2007年以来没有任何活动。此外,还不清楚它使用什么许可证(允许商业开发?)