Scala 确定/启用spark中的并行性
我已经开发了一个scala应用程序,并从中获得了几乎正确的结果。但我不确定我的代码是否利用了spark并行性 我以独立模式运行spark,有两个虚拟工作者,每个虚拟工作者有2个内核和2G内存 下面是应用程序的代码片段: RDD的初始化:Scala 确定/启用spark中的并行性,scala,apache-spark,rdd,Scala,Apache Spark,Rdd,我已经开发了一个scala应用程序,并从中获得了几乎正确的结果。但我不确定我的代码是否利用了spark并行性 我以独立模式运行spark,有两个虚拟工作者,每个虚拟工作者有2个内核和2G内存 下面是应用程序的代码片段: RDD的初始化: for(i <- 0 to limit-1){ data+=new MyClass(dimension_limit) with Serializable } var example_rdd = sc.parallelise(data) 下面是来
for(i <- 0 to limit-1){
data+=new MyClass(dimension_limit) with Serializable
}
var example_rdd = sc.parallelise(data)
下面是来自历史记录服务器的作业快照
这是舞台细节:
请帮助我确定我的代码是否并行运行;如果不是,我的实现中会出现什么问题
var temp_rdd: RDD[MyClass] = sc.emptyRDD[MyClass]
temp_rdd = example_rdd
var updated_rdd: RDD[MyClass] = sc.emptyRDD[MyClass]
for(i <- 0 to no_of_iterations-1){
updated_rdd = temp_rdd.map{ x => updation_function(x)}
updated_rdd.count() // to trigger the map
temp_rdd = updated_rdd
}
def update_function(x: MyClass): MyClass{
x.property1 = "value"
.
.
.
//all updations
return x
}