Machine learning 在大型arff数据集文件上运行weka

Machine learning 在大型arff数据集文件上运行weka,machine-learning,nlp,weka,information-retrieval,arff,Machine Learning,Nlp,Weka,Information Retrieval,Arff,我有一个arff文件,其中包含700个条目,每个条目都包含一个NLP相关项目的42000+功能。现在格式是密集格式,但是如果使用稀疏表示,条目可以大大减少。 我运行在一台具有2 GB RAM的core 2 duo机器上,尽管将限制提高到1536 MB,但我获得的内存超出范围 如果我将arff文件转换为稀疏表示,或者我需要在功能更强大的机器上运行代码,这会有什么好处?取决于算法的内部数据结构和数据处理方式(增量或全部在内存中),它是否需要更多内存。因此,您需要的内存取决于算法 所以稀疏表示对您来说

我有一个
arff
文件,其中包含
700个条目
,每个条目都包含一个NLP相关项目的
42000+功能。现在格式是密集格式,但是如果使用稀疏表示,条目可以大大减少。
我运行在一台具有2 GB RAM的
core 2 duo机器上,尽管将限制提高到1536 MB,但我获得的
内存超出范围


如果我将arff文件转换为稀疏表示,或者我需要在功能更强大的机器上运行代码,这会有什么好处?

取决于算法的内部数据结构和数据处理方式(增量或全部在内存中),它是否需要更多内存。因此,您需要的内存取决于算法

所以稀疏表示对您来说更容易,因为它是紧凑的,但是,正如我所知,该算法将需要相同数量的内存来从相同的数据集创建模型。输入格式应该对算法透明