Apache spark 通过Spark中的分区将RDD保存到多个位置_Apache Spark_Rdd

Apache spark 通过Spark中的分区将RDD保存到多个位置

apache-spark

Apache spark 通过Spark中的分区将RDD保存到多个位置,apache-spark,rdd,Apache Spark,Rdd,如何将n分区的rdd保存为k您应该首先考虑您的文件输出格式（avro、二进制、文本、拼花等），然后您可能需要继承标准实现，并在重写方法中使用路径来实现将分区分为两个位置的目标。您试图解决的问题是什么？您应该首先考虑您的文件输出格式（avro、二进制、文本、拼花等），然后您可能需要继承标准实现，并在重写方法中使用路径来实现将分区分为两个位置的目标。您试图解决的问题是什么？您正在寻找类似于DataFrameWriter.partitionBy或？MultipleOutputFormat与我所寻找的内

如何将

分区的rdd保存为

k您应该首先考虑您的文件输出格式（avro、二进制、文本、拼花等），然后您可能需要继承标准实现，并在重写方法中使用路径来实现将分区分为两个位置的目标。您试图解决的问题是什么？
您应该首先考虑您的文件输出格式（avro、二进制、文本、拼花等），然后您可能需要继承标准实现，并在重写方法中使用路径来实现将分区分为两个位置的目标。您试图解决的问题是什么？
您正在寻找类似于DataFrameWriter.partitionBy
或？MultipleOutputFormat与我所寻找的内容非常接近，但在我的情况下，文件名不依赖于记录（键或值）。我可以散列键并通过k
对其进行修改，以实现我想要的，但理想情况下，我希望保持简单，将分区作为一个整体来处理，而不是对记录进行内省。您是否在寻找类似DataFrameWriter.partitionBy
或？MultipleOutputFormat的内容，这与我正在寻找的内容非常接近，但在我的例子中，文件名并不依赖于记录（键或值）。我可以将键散列并通过k
进行修改以实现我想要的，但理想情况下，我希望保持简单，将分区作为一个整体来处理，而不是对记录进行内省。在我的情况下，我只想保存ASTEXTFILE
。需要不同的输出路径，以便下游作业（而不是spark中的作业）forkk
进程是否可以并行进行，每个进程都有自己的输入路径==我的spark作业的输出，但您不能在下游作业中定义此“拆分”吗？我的意思是，如果您正在使用一些map reduce，您通常可以在读取某些内容时定义路径过滤器，因此您可以为k个作业中的每个作业定义特定的路径过滤器（例如，在您的示例中，第一个只取part0到part5，第二个取part6到part10），我只想saveAsTextFile
。需要不同的输出路径，以便下游作业（不在spark中）可以并行分叉k
进程，每个进程都有自己的输入路径==我的spark作业的输出，但您不能在下游作业中定义此“拆分”吗？我的意思是，如果您正在使用一些map reduce，您通常可以在读取某些内容时定义路径过滤器，因此您可以为k个作业中的每个作业定义特定的路径过滤器（例如，在您的示例中，第一个将只使用part0到part5，第二个将使用part6到part10）