Amazon s3 将RDD保存到文件会导致零件的_临时路径_Amazon S3_Apache Spark_Rdd

Amazon s3 将RDD保存到文件会导致零件的_临时路径

amazon-s3 apache-spark

Amazon s3 将RDD保存到文件会导致零件的_临时路径,amazon-s3,apache-spark,rdd,Amazon S3,Apache Spark,Rdd,我想将Spark中的数据保存到S3。建议使用SparkContext上的saveAsTextFile方法进行保存，这是成功的。我希望数据将保存为“部分” 我的问题是，当我转到S3查看我的数据时，它已保存在一个名为\u temporary的文件夹中，带有一个子文件夹0，然后每个部分或任务都保存在自己的文件夹中比如说, data.saveAsTextFile("s3:/kirk/data"); 导致文件类 s3://kirk/data/_SUCCESS s3://kirk/data/_tempo

我想将Spark中的数据保存到S3。建议使用SparkContext上的

saveAsTextFile

方法进行保存，这是成功的。我希望数据将保存为“部分”

我的问题是，当我转到S3查看我的数据时，它已保存在一个名为

\u temporary

的文件夹中，带有一个子文件夹

，然后每个部分或任务都保存在自己的文件夹中

比如说,

data.saveAsTextFile("s3:/kirk/data");

导致文件类

s3://kirk/data/_SUCCESS
s3://kirk/data/_temporary/0/_temporary_$folder$
s3://kirk/data/_temporary/0/task_201411291454_0001_m_00000_$folder$
s3://kirk/data/_temporary/0/task_201411291454_0001_m_00000/part-00000
s3://kirk/data/_temporary/0/task_201411291454_0001_m_00001_$folder$
s3://kirk/data/_temporary/0/task_201411291454_0001_m_00001/part-00001

等等。我会期待和看到类似的事情

s3://kirk/data/_SUCCESS
s3://kirk/data/part-00000
s3://kirk/data/part-00001

这是一个配置设置，还是我需要“提交”保存以解决临时文件？

我的spark streaming也有同样的问题，那是因为我的Sparkmaster是用

conf.setMaster（“local”）

而不是

conf.setMaster（“local[*]）设置的
如果没有[*]
，spark将无法在流期间执行saveastextfile
。在导出之前，请尝试使用coalesce（）将rdd减少到1个分区。
祝你好运
 我遇到了同样的问题，它只发生在大量的分区上