Scala 并行化数据集spark的列表_Scala_Apache Spark_Dataset

Scala 并行化数据集spark的列表

scala apache-spark

Scala 并行化数据集spark的列表,scala,apache-spark,dataset,Scala,Apache Spark,Dataset,我过滤一个数据集以获得一个数据集列表，然后我希望并行地保存这些数据集代码：当前，foreach按顺序运行。我可以将yearwisedList转换为par列表，但这样就不会使用spark进行并行化如何使用spark做到这一点？问题是关于spark中的嵌套平行化。下面的链接回答了这个问题 ApacheSpark有一个完全不同的并行化方案。你可以在Google上搜索ApacheSparkRDD教程，SparkRDD对我没有帮助。要么你建议我做一个sc。将我已经尝试过的yearWiseDsList

我过滤一个数据集以获得一个数据集列表，然后我希望并行地保存这些数据集

代码：

当前，

foreach

按顺序运行。我可以将

yearwisedList

转换为

par

列表

，但这样就不会使用spark进行并行化

如何使用spark做到这一点？

问题是关于spark中的嵌套平行化。下面的链接回答了这个问题

ApacheSpark有一个完全不同的并行化方案。你可以在Google上搜索ApacheSparkRDD教程，SparkRDD对我没有帮助。要么你建议我做一个sc。将我已经尝试过的yearWiseDsList并行化，但它不起作用。。。什么不起作用？什么是你不能实现的？RDD是Spark中的并行方式。你还想做什么？

val yearWiseDsList = years.map(year => ds.filter($"year".rlike(year.toString)))

yearWiseDsList.zipWithIndex.foreach {
        case (xDf, idx) =>
xDf.write.format("csv").option("header", "false").save("mydata" + "_" + (startYear + idx))
}