Apache spark 使用jobserver在Spark上运行批处理作业和实时作业_Apache Spark_Spark Jobserver

Apache spark 使用jobserver在Spark上运行批处理作业和实时作业

apache-spark

Apache spark 使用jobserver在Spark上运行批处理作业和实时作业,apache-spark,spark-jobserver,Apache Spark,Spark Jobserver,我有一个spark作业，它作为管道的一部分每天运行，并执行简单的批处理——比方说，将一列添加到DF中，另一列的值为平方。（旧DF:x，新DF:x，x^2）我也有一个前端应用程序，它使用这两列。我希望允许我的用户编辑x并从相同的代码库中获得答案。由于批处理作业已经用spark编写，因此我在spark集群上寻找了一种方法来实现这一点，并运行到spark jobserver中，这可能会有所帮助我的问题是: spark jobserver能否同时支持批处理和单个处理我可以使用同一个jobser

我有一个spark作业，它作为管道的一部分每天运行，并执行简单的批处理——比方说，将一列添加到DF中，另一列的值为平方。（旧DF:x，新DF:x，x^2）

我也有一个前端应用程序，它使用这两列。我希望允许我的用户编辑x并从相同的代码库中获得答案。由于批处理作业已经用spark编写，因此我在spark集群上寻找了一种方法来实现这一点，并运行到spark jobserver中，这可能会有所帮助

我的问题是:

spark jobserver能否同时支持批处理和单个处理

我可以使用同一个jobserver兼容的JAR在AWS EMR上运行spark作业吗

打开以了解其他在此类用例中有帮助的工具

谢谢

不确定我是否完全理解了您的场景，但是使用Spark Jobserver并向其传递不同的参数

是的，一旦您有了与Jobserver兼容的JAR，您就应该能够在Jobserver与Spark在独立模式下运行时、与Thread或与EMR一起使用它。但请考虑到你需要这样做。开源文档目前似乎有点过时