Amazon ec2 pyspark仅使用半内存ec2 spark_Amazon Ec2_Apache Spark_Pyspark

Amazon ec2 pyspark仅使用半内存ec2 spark

amazon-ec2 apache-spark pyspark

Amazon ec2 pyspark仅使用半内存ec2 spark,amazon-ec2,apache-spark,pyspark,Amazon Ec2,Apache Spark,Pyspark,我正在使用提供的Spark-ec2玩Spark： ./spark-ec2 \ --key-pair=pems \ --identity-file=/path/pems.pem \ --region=eu-west-1 \ -s 8 \ --instance-type c3.xlarge \ launch my-spark-cluster 安装后，在主节点完全安装后，我将ssh安装到主节点中，然后启动pyspark $ /root/spark/bin/pyspark --executor-mem

我正在使用提供的Spark-ec2玩Spark：

./spark-ec2 \
--key-pair=pems \
--identity-file=/path/pems.pem \
--region=eu-west-1 \
-s 8 \
--instance-type c3.xlarge \
launch my-spark-cluster

安装后，在主节点完全安装后，我将ssh安装到主节点中，然后启动pyspark

$ /root/spark/bin/pyspark --executor-memory 2G

我指定（至少我认为）每个执行器（机器）获得2GB内存。当我在

：4040

浏览控制台时，我发现有些地方不对劲

当我输入其他首选项时，我会得到类似的结果

$ /root/spark/bin/pyspark --executor-memory 1G

让我困惑的是，我指定了

c3.xlarge

机器，这些机器有~7.5GB的内存，所以这不应该是内存不足的问题。有人有主意吗

此处显示的内存是为缓存分配的内存

它由

spark.storage.memoryFraction

config定义，默认值为

.6

是否可以将其提升？考虑到我想在分析的剩余部分从s3加载一次数据，这似乎是我想手动提高的。是的，您可以增加它。在启动executor--config spark.storage.memoryFraction 0.8时，请注意，这不应大于JVM中对象的“旧”代，默认情况下，为将来的读者提供0.6的heap.note。您可以使用以下命令：

/root/spark/bin/pyspark--conf spark.storage.memoryFraction=0.75