Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/scala/19.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Scala 并行化数据集spark的列表_Scala_Apache Spark_Dataset - Fatal编程技术网

Scala 并行化数据集spark的列表

Scala 并行化数据集spark的列表,scala,apache-spark,dataset,Scala,Apache Spark,Dataset,我过滤一个数据集以获得一个数据集列表,然后我希望并行地保存这些数据集 代码: 当前,foreach按顺序运行。我可以将yearwisedList转换为par列表,但这样就不会使用spark进行并行化 如何使用spark做到这一点?问题是关于spark中的嵌套平行化。下面的链接回答了这个问题 ApacheSpark有一个完全不同的并行化方案。你可以在Google上搜索ApacheSparkRDD教程,SparkRDD对我没有帮助。要么你建议我做一个sc。将我已经尝试过的yearWiseDsList

我过滤一个数据集以获得一个数据集列表,然后我希望并行地保存这些数据集

代码:

当前,
foreach
按顺序运行。我可以将
yearwisedList
转换为
par
列表
,但这样就不会使用spark进行并行化


如何使用spark做到这一点?

问题是关于spark中的嵌套平行化。下面的链接回答了这个问题


ApacheSpark有一个完全不同的并行化方案。你可以在Google上搜索ApacheSparkRDD教程,SparkRDD对我没有帮助。要么你建议我做一个sc。将我已经尝试过的yearWiseDsList并行化,但它不起作用。。。什么不起作用?什么是你不能实现的?RDD是Spark中的并行方式。你还想做什么?
val yearWiseDsList = years.map(year => ds.filter($"year".rlike(year.toString)))

yearWiseDsList.zipWithIndex.foreach {
        case (xDf, idx) =>
xDf.write.format("csv").option("header", "false").save("mydata" + "_" + (startYear + idx))
}