Hadoop 在主spark作业中启动多个spark作业
可以在一个主spark作业中生成多个spark作业吗?我的主spark作业的驱动程序在纱线簇上启动,将执行一些预处理,并在此基础上,需要在纱线簇上启动多个spark作业。不确定这种模式是否正确 主spark作业将启动其他spark作业,类似于在spark驱动程序中调用多个spark提交。 新作业的这些派生线程将是完全不同的组件,因此无法使用spark操作实现这些线程 请分享你的想法 为了更好地理解,我提供的示例代码如下。。Hadoop 在主spark作业中启动多个spark作业,hadoop,apache-spark,Hadoop,Apache Spark,可以在一个主spark作业中生成多个spark作业吗?我的主spark作业的驱动程序在纱线簇上启动,将执行一些预处理,并在此基础上,需要在纱线簇上启动多个spark作业。不确定这种模式是否正确 主spark作业将启动其他spark作业,类似于在spark驱动程序中调用多个spark提交。 新作业的这些派生线程将是完全不同的组件,因此无法使用spark操作实现这些线程 请分享你的想法 为了更好地理解,我提供的示例代码如下。。 使用像oozie这样的工作流管理工具在作业中协调这种依赖关系 Oozie
使用像oozie这样的工作流管理工具在作业中协调这种依赖关系 Oozie有spark action,她会action,give action,Java action,distcp,email,一切都在那里 因此,我们可以使用oozie在两个工作之间建立良好的协调
Object Mainsparkjob {
main(...){
val sc=new SparkContext(..)
Fetch from hive..using hivecontext
Fetch from hbase
//spawning multiple Futures..
Val future1=Future{
Val sparkjob= SparkLauncher(...).launch; spark.waitFor
}
Similarly, future2 to futureN.
future1.onComplete{...}
}
}//end of main spark job