Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/amazon-s3/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Amazon s3 将RDD保存到文件会导致零件的_临时路径_Amazon S3_Apache Spark_Rdd - Fatal编程技术网

Amazon s3 将RDD保存到文件会导致零件的_临时路径

Amazon s3 将RDD保存到文件会导致零件的_临时路径,amazon-s3,apache-spark,rdd,Amazon S3,Apache Spark,Rdd,我想将Spark中的数据保存到S3。建议使用SparkContext上的saveAsTextFile方法进行保存,这是成功的。我希望数据将保存为“部分” 我的问题是,当我转到S3查看我的数据时,它已保存在一个名为\u temporary的文件夹中,带有一个子文件夹0,然后每个部分或任务都保存在自己的文件夹中 比如说, data.saveAsTextFile("s3:/kirk/data"); 导致文件类 s3://kirk/data/_SUCCESS s3://kirk/data/_tempo

我想将Spark中的数据保存到S3。建议使用SparkContext上的
saveAsTextFile
方法进行保存,这是成功的。我希望数据将保存为“部分”

我的问题是,当我转到S3查看我的数据时,它已保存在一个名为
\u temporary
的文件夹中,带有一个子文件夹
0
,然后每个部分或任务都保存在自己的文件夹中

比如说,

data.saveAsTextFile("s3:/kirk/data");
导致文件类

s3://kirk/data/_SUCCESS
s3://kirk/data/_temporary/0/_temporary_$folder$
s3://kirk/data/_temporary/0/task_201411291454_0001_m_00000_$folder$
s3://kirk/data/_temporary/0/task_201411291454_0001_m_00000/part-00000
s3://kirk/data/_temporary/0/task_201411291454_0001_m_00001_$folder$
s3://kirk/data/_temporary/0/task_201411291454_0001_m_00001/part-00001
等等。我会期待和看到类似的事情

s3://kirk/data/_SUCCESS
s3://kirk/data/part-00000
s3://kirk/data/part-00001

这是一个配置设置,还是我需要“提交”保存以解决临时文件?

我的spark streaming也有同样的问题,那是因为我的Sparkmaster是用
conf.setMaster(“local”)
而不是
conf.setMaster(“local[*])设置的
如果没有
[*]
,spark将无法在流期间执行
saveastextfile

在导出之前,请尝试使用coalesce()将rdd减少到1个分区。
祝你好运

我遇到了同样的问题,它只发生在大量的分区上