Java堆空间错误，Spark在EC2实例上运行K means_Java_Amazon Ec2_Apache Spark

Java堆空间错误，Spark在EC2实例上运行K means

java amazon-ec2 apache-spark

Java堆空间错误，Spark在EC2实例上运行K means,java,amazon-ec2,apache-spark,Java,Amazon Ec2,Apache Spark,我试图在一个只有22MB的示例文档上使用Spark运行K-means，结果发现一个Java堆空间错误。有什么想法吗？它在集群线路上失败示例数据和代码在我的问题是我的文档非常大，而且功能太多，无法存储在为spark进程分配的内存中。为了解决这个问题，我用最大数量的特性初始化了HashingTF： hashingTF = HashingTF(5000) hashingTF = HashingTF(5000)

我试图在一个只有22MB的示例文档上使用Spark运行K-means，结果发现一个Java堆空间错误。有什么想法吗？它在集群线路上失败

示例数据和代码在我的

问题是我的文档非常大，而且功能太多，无法存储在为spark进程分配的内存中。为了解决这个问题，我用最大数量的特性初始化了HashingTF：

hashingTF = HashingTF(5000)

hashingTF = HashingTF(5000)