Apache spark 如何在集群部署模式下管理作业依赖关系

Apache spark 如何在集群部署模式下管理作业依赖关系,apache-spark,Apache Spark,当我使用集群模式提交spark作业时,它会立即返回。并在群集上运行作业 所以,如果我想在作业A成功完成时提交作业B,那么在集群部署模式下似乎无法完成。因为作业A完成时没有任何回调或通知。除了Apurba所说的,您还可以在自己的程序中编写依赖关系,通过这样做,您可以在一个程序中运行几个作业。如果您对作业A有依赖关系,并且作业B应该仅在作业A完成后启动,如果使用Oozie作为作业调度程序,效果会更好。它是一种广泛使用的工具,用于管理多个作业依赖项和调度。这里是链接。若在程序中编写作业依赖项,它似乎不

当我使用集群模式提交spark作业时,它会立即返回。并在群集上运行作业


所以,如果我想在作业A成功完成时提交作业B,那么在集群部署模式下似乎无法完成。因为作业A完成时没有任何回调或通知。

除了Apurba所说的,您还可以在自己的程序中编写依赖关系,通过这样做,您可以在一个程序中运行几个作业。

如果您对作业A有依赖关系,并且作业B应该仅在作业A完成后启动,如果使用Oozie作为作业调度程序,效果会更好。它是一种广泛使用的工具,用于管理多个作业依赖项和调度。这里是链接。若在程序中编写作业依赖项,它似乎不是很灵活。这取决于您如何实现它。这样,如果您将依赖项存储在数据库或配置中心中,效果会更好。当然,您可以使用像Azkaban和Oozie这样的作业调度程序,但是部署和维护是有成本的。从我的角度来看,任何一种方式都是好的,如果它能很好地适合您的业务。