Scala 在Gzip中进行Spark编码并发送到S3-java.io.IOException:设备上没有剩余空间

Scala 在Gzip中进行Spark编码并发送到S3-java.io.IOException:设备上没有剩余空间,scala,apache-spark,amazon-s3,gzip,Scala,Apache Spark,Amazon S3,Gzip,我正在尝试GZIP并向S3发送RDD,如下所示: dwPartitioned.saveAsTextFile(s"s3n://$accessKey:$secretKey@bucket", classOf[GzipCodec]) 作业开始运行,之后不久会出现以下结果: org.apache.spark.SparkException: Job aborted due to stage failure: ... : java.io.IOException: No space left on devi

我正在尝试GZIP并向S3发送RDD,如下所示:

dwPartitioned.saveAsTextFile(s"s3n://$accessKey:$secretKey@bucket", classOf[GzipCodec])
作业开始运行,之后不久会出现以下结果:

org.apache.spark.SparkException: Job aborted due to stage failure:  ... : java.io.IOException: No space left on device
我读到,由于编码,需要生成临时文件,因此需要进行一些洗牌。这是真的吗?我是否滥用了功能?这里有什么我可以优化的吗

更重要的是,我如何在记忆中实现这一点


如果您需要更多信息,我很乐意将其附加。

默认情况下,spark使用“
/tmp
”保存中间文件。当作业运行时,您可以通过选项卡“
df-h
”查看装载在“/”上的fs的已使用空间。当开发人员的空间用完时,抛出此异常。要解决此问题,请在
SPARK\u HOME/conf/SPARK\u defaults.conf
中设置SPARK\u LOCAL\u DIRS,并在
fs
中设置路径,以留出足够的空间。

默认情况下,SPARK使用“
/tmp
”保存中间文件。当作业运行时,您可以通过选项卡“
df-h
”查看装载在“/”上的fs的已使用空间。当开发人员的空间用完时,抛出此异常。要解决此问题,请在
SPARK\u HOME/conf/SPARK\u defaults.conf
中设置SPARK\u LOCAL\u DIRS,并在
fs
中设置一个路径,以留出足够的空间。

不幸的是,我在Databricks中的笔记本中工作,它们不允许您管理集群。所以我对此无能为力。不幸的是,我在Databricks的笔记本中工作,它们不允许您管理集群。所以我对此无能为力。