Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Hadoop 在主spark作业中启动多个spark作业_Hadoop_Apache Spark - Fatal编程技术网

Hadoop 在主spark作业中启动多个spark作业

Hadoop 在主spark作业中启动多个spark作业,hadoop,apache-spark,Hadoop,Apache Spark,可以在一个主spark作业中生成多个spark作业吗?我的主spark作业的驱动程序在纱线簇上启动,将执行一些预处理,并在此基础上,需要在纱线簇上启动多个spark作业。不确定这种模式是否正确 主spark作业将启动其他spark作业,类似于在spark驱动程序中调用多个spark提交。 新作业的这些派生线程将是完全不同的组件,因此无法使用spark操作实现这些线程 请分享你的想法 为了更好地理解,我提供的示例代码如下。。 使用像oozie这样的工作流管理工具在作业中协调这种依赖关系 Oozie

可以在一个主spark作业中生成多个spark作业吗?我的主spark作业的驱动程序在纱线簇上启动,将执行一些预处理,并在此基础上,需要在纱线簇上启动多个spark作业。不确定这种模式是否正确

主spark作业将启动其他spark作业,类似于在spark驱动程序中调用多个spark提交。 新作业的这些派生线程将是完全不同的组件,因此无法使用spark操作实现这些线程

请分享你的想法

为了更好地理解,我提供的示例代码如下。。
使用像oozie这样的工作流管理工具在作业中协调这种依赖关系

Oozie有spark action,她会action,give action,Java action,distcp,email,一切都在那里

因此,我们可以使用oozie在两个工作之间建立良好的协调

Object Mainsparkjob {

main(...){

val sc=new SparkContext(..)

Fetch from hive..using hivecontext
Fetch from hbase

//spawning multiple Futures..
Val future1=Future{
Val sparkjob= SparkLauncher(...).launch; spark.waitFor
}

Similarly, future2 to futureN.

future1.onComplete{...}
}
}//end of main spark job