Amazon s3 将RDD保存到文件会导致零件的_临时路径
我想将Spark中的数据保存到S3。建议使用SparkContext上的Amazon s3 将RDD保存到文件会导致零件的_临时路径,amazon-s3,apache-spark,rdd,Amazon S3,Apache Spark,Rdd,我想将Spark中的数据保存到S3。建议使用SparkContext上的saveAsTextFile方法进行保存,这是成功的。我希望数据将保存为“部分” 我的问题是,当我转到S3查看我的数据时,它已保存在一个名为\u temporary的文件夹中,带有一个子文件夹0,然后每个部分或任务都保存在自己的文件夹中 比如说, data.saveAsTextFile("s3:/kirk/data"); 导致文件类 s3://kirk/data/_SUCCESS s3://kirk/data/_tempo
saveAsTextFile
方法进行保存,这是成功的。我希望数据将保存为“部分”
我的问题是,当我转到S3查看我的数据时,它已保存在一个名为\u temporary
的文件夹中,带有一个子文件夹0
,然后每个部分或任务都保存在自己的文件夹中
比如说,
data.saveAsTextFile("s3:/kirk/data");
导致文件类
s3://kirk/data/_SUCCESS
s3://kirk/data/_temporary/0/_temporary_$folder$
s3://kirk/data/_temporary/0/task_201411291454_0001_m_00000_$folder$
s3://kirk/data/_temporary/0/task_201411291454_0001_m_00000/part-00000
s3://kirk/data/_temporary/0/task_201411291454_0001_m_00001_$folder$
s3://kirk/data/_temporary/0/task_201411291454_0001_m_00001/part-00001
等等。我会期待和看到类似的事情
s3://kirk/data/_SUCCESS
s3://kirk/data/part-00000
s3://kirk/data/part-00001
这是一个配置设置,还是我需要“提交”保存以解决临时文件?我的spark streaming也有同样的问题,那是因为我的Sparkmaster是用
conf.setMaster(“local”)
而不是conf.setMaster(“local[*])设置的
如果没有[*]
,spark将无法在流期间执行saveastextfile
。在导出之前,请尝试使用coalesce()将rdd减少到1个分区。
祝你好运 我遇到了同样的问题,它只发生在大量的分区上