Apache spark 通过Spark中的分区将RDD保存到多个位置

Apache spark 通过Spark中的分区将RDD保存到多个位置,apache-spark,rdd,Apache Spark,Rdd,如何将n分区的rdd保存为k您应该首先考虑您的文件输出格式(avro、二进制、文本、拼花等),然后您可能需要继承标准实现,并在重写方法中使用路径来实现将分区分为两个位置的目标。您试图解决的问题是什么?您应该首先考虑您的文件输出格式(avro、二进制、文本、拼花等),然后您可能需要继承标准实现,并在重写方法中使用路径来实现将分区分为两个位置的目标。您试图解决的问题是什么?您正在寻找类似于DataFrameWriter.partitionBy或?MultipleOutputFormat与我所寻找的内

如何将
n
分区的rdd保存为
k您应该首先考虑您的文件输出格式(avro、二进制、文本、拼花等),然后您可能需要继承标准实现,并在重写方法中使用路径来实现将分区分为两个位置的目标。您试图解决的问题是什么?

您应该首先考虑您的文件输出格式(avro、二进制、文本、拼花等),然后您可能需要继承标准实现,并在重写方法中使用路径来实现将分区分为两个位置的目标。您试图解决的问题是什么?

您正在寻找类似于
DataFrameWriter.partitionBy
或?MultipleOutputFormat与我所寻找的内容非常接近,但在我的情况下,文件名不依赖于记录(键或值)。我可以散列键并通过
k
对其进行修改,以实现我想要的,但理想情况下,我希望保持简单,将分区作为一个整体来处理,而不是对记录进行内省。您是否在寻找类似
DataFrameWriter.partitionBy
或?MultipleOutputFormat的内容,这与我正在寻找的内容非常接近,但在我的例子中,文件名并不依赖于记录(键或值)。我可以将键散列并通过
k
进行修改以实现我想要的,但理想情况下,我希望保持简单,将分区作为一个整体来处理,而不是对记录进行内省。在我的情况下,我只想
保存ASTEXTFILE
。需要不同的输出路径,以便下游作业(而不是spark中的作业)fork
k
进程是否可以并行进行,每个进程都有自己的输入路径==我的spark作业的输出,但您不能在下游作业中定义此“拆分”吗?我的意思是,如果您正在使用一些map reduce,您通常可以在读取某些内容时定义路径过滤器,因此您可以为k个作业中的每个作业定义特定的路径过滤器(例如,在您的示例中,第一个只取part0到part5,第二个取part6到part10),我只想
saveAsTextFile
。需要不同的输出路径,以便下游作业(不在spark中)可以并行分叉
k
进程,每个进程都有自己的输入路径==我的spark作业的输出,但您不能在下游作业中定义此“拆分”吗?我的意思是,如果您正在使用一些map reduce,您通常可以在读取某些内容时定义路径过滤器,因此您可以为k个作业中的每个作业定义特定的路径过滤器(例如,在您的示例中,第一个将只使用part0到part5,第二个将使用part6到part10)