Scala 并行化数据集spark的列表
我过滤一个数据集以获得一个数据集列表,然后我希望并行地保存这些数据集 代码: 当前,Scala 并行化数据集spark的列表,scala,apache-spark,dataset,Scala,Apache Spark,Dataset,我过滤一个数据集以获得一个数据集列表,然后我希望并行地保存这些数据集 代码: 当前,foreach按顺序运行。我可以将yearwisedList转换为par列表,但这样就不会使用spark进行并行化 如何使用spark做到这一点?问题是关于spark中的嵌套平行化。下面的链接回答了这个问题 ApacheSpark有一个完全不同的并行化方案。你可以在Google上搜索ApacheSparkRDD教程,SparkRDD对我没有帮助。要么你建议我做一个sc。将我已经尝试过的yearWiseDsList
foreach
按顺序运行。我可以将yearwisedList
转换为par
列表
,但这样就不会使用spark进行并行化
如何使用spark做到这一点?问题是关于spark中的嵌套平行化。下面的链接回答了这个问题
ApacheSpark有一个完全不同的并行化方案。你可以在Google上搜索ApacheSparkRDD教程,SparkRDD对我没有帮助。要么你建议我做一个sc。将我已经尝试过的yearWiseDsList并行化,但它不起作用。。。什么不起作用?什么是你不能实现的?RDD是Spark中的并行方式。你还想做什么?
val yearWiseDsList = years.map(year => ds.filter($"year".rlike(year.toString)))
yearWiseDsList.zipWithIndex.foreach {
case (xDf, idx) =>
xDf.write.format("csv").option("header", "false").save("mydata" + "_" + (startYear + idx))
}