Apache spark 使用jobserver在Spark上运行批处理作业和实时作业

Apache spark 使用jobserver在Spark上运行批处理作业和实时作业,apache-spark,spark-jobserver,Apache Spark,Spark Jobserver,我有一个spark作业,它作为管道的一部分每天运行,并执行简单的批处理——比方说,将一列添加到DF中,另一列的值为平方。(旧DF:x,新DF:x,x^2) 我也有一个前端应用程序,它使用这两列。 我希望允许我的用户编辑x并从相同的代码库中获得答案。 由于批处理作业已经用spark编写,因此我在spark集群上寻找了一种方法来实现这一点,并运行到spark jobserver中,这可能会有所帮助 我的问题是: spark jobserver能否同时支持批处理和单个处理 我可以使用同一个jobser

我有一个spark作业,它作为管道的一部分每天运行,并执行简单的批处理——比方说,将一列添加到DF中,另一列的值为平方。(旧DF:x,新DF:x,x^2)

我也有一个前端应用程序,它使用这两列。 我希望允许我的用户编辑x并从相同的代码库中获得答案。 由于批处理作业已经用spark编写,因此我在spark集群上寻找了一种方法来实现这一点,并运行到spark jobserver中,这可能会有所帮助

我的问题是:

  • spark jobserver能否同时支持批处理和单个处理
  • 我可以使用同一个jobserver兼容的JAR在AWS EMR上运行spark作业吗
  • 打开以了解其他在此类用例中有帮助的工具
  • 谢谢

  • 不确定我是否完全理解了您的场景,但是使用Spark Jobserver并向其传递不同的参数
  • 是的,一旦您有了与Jobserver兼容的JAR,您就应该能够在Jobserver与Spark在独立模式下运行时、与Thread或与EMR一起使用它。但请考虑到你需要这样做。开源文档目前似乎有点过时