Java堆空间错误,Spark在EC2实例上运行K means

Java堆空间错误,Spark在EC2实例上运行K means,java,amazon-ec2,apache-spark,Java,Amazon Ec2,Apache Spark,我试图在一个只有22MB的示例文档上使用Spark运行K-means,结果发现一个Java堆空间错误。有什么想法吗?它在集群线路上失败 示例数据和代码在我的 问题是我的文档非常大,而且功能太多,无法存储在为spark进程分配的内存中。为了解决这个问题,我用最大数量的特性初始化了HashingTF: hashingTF = HashingTF(5000) hashingTF = HashingTF(5000)

我试图在一个只有22MB的示例文档上使用Spark运行K-means,结果发现一个Java堆空间错误。有什么想法吗?它在集群线路上失败

示例数据和代码在我的


问题是我的文档非常大,而且功能太多,无法存储在为spark进程分配的内存中。为了解决这个问题,我用最大数量的特性初始化了HashingTF:

hashingTF = HashingTF(5000)
hashingTF = HashingTF(5000)