Scala 在Gzip中进行Spark编码并发送到S3-java.io.IOException：设备上没有剩余空间_Scala_Apache Spark_Amazon S3_Gzip

Scala 在Gzip中进行Spark编码并发送到S3-java.io.IOException：设备上没有剩余空间

scala apache-spark amazon-s3

Scala 在Gzip中进行Spark编码并发送到S3-java.io.IOException：设备上没有剩余空间,scala,apache-spark,amazon-s3,gzip,Scala,Apache Spark,Amazon S3,Gzip,我正在尝试GZIP并向S3发送RDD，如下所示： dwPartitioned.saveAsTextFile(s"s3n://$accessKey:$secretKey@bucket", classOf[GzipCodec]) 作业开始运行，之后不久会出现以下结果： org.apache.spark.SparkException: Job aborted due to stage failure: ... : java.io.IOException: No space left on devi

我正在尝试GZIP并向S3发送RDD，如下所示：

dwPartitioned.saveAsTextFile(s"s3n://$accessKey:$secretKey@bucket", classOf[GzipCodec])

作业开始运行，之后不久会出现以下结果：

org.apache.spark.SparkException: Job aborted due to stage failure:  ... : java.io.IOException: No space left on device

我读到，由于编码，需要生成临时文件，因此需要进行一些洗牌。这是真的吗？我是否滥用了功能？这里有什么我可以优化的吗

更重要的是，我如何在记忆中实现这一点

如果您需要更多信息，我很乐意将其附加。

默认情况下，spark使用“

/tmp

”保存中间文件。当作业运行时，您可以通过选项卡“

df-h

”查看装载在“/”上的fs的已使用空间。当开发人员的空间用完时，抛出此异常。要解决此问题，请在

SPARK\u HOME/conf/SPARK\u defaults.conf

中设置SPARK\u LOCAL\u DIRS，并在

fs

中设置路径，以留出足够的空间。

默认情况下，SPARK使用“

/tmp

”保存中间文件。当作业运行时，您可以通过选项卡“

df-h

”查看装载在“/”上的fs的已使用空间。当开发人员的空间用完时，抛出此异常。要解决此问题，请在

SPARK\u HOME/conf/SPARK\u defaults.conf

中设置SPARK\u LOCAL\u DIRS，并在

fs

中设置一个路径，以留出足够的空间。

不幸的是，我在Databricks中的笔记本中工作，它们不允许您管理集群。所以我对此无能为力。不幸的是，我在Databricks的笔记本中工作，它们不允许您管理集群。所以我对此无能为力。