Amazon web services 通过ApacheLivy向队列中的AWS EMR提交Spark作业

Amazon web services 通过ApacheLivy向队列中的AWS EMR提交Spark作业,amazon-web-services,apache-spark,amazon-emr,livy,Amazon Web Services,Apache Spark,Amazon Emr,Livy,我们已经制作了spark(scala)代码的jar,并通过S3将其上传到AWS EMR。我们打算通过使用ApacheLivy来运行此spark代码。 将jar复制到集群后,我们运行以下命令以使Livy可以访问jar: hadoop fs-put/myjar.jar/ 我们的概念验证EMR集群有1个m5.xLarge作为主节点,没有其他节点。我们刚刚为EMR启用了Spark和Livy 现在,我们使用此post方法将spark作业提交给: 正文: { “名称”:“请求名称”, “类名”:“我们的类名

我们已经制作了spark(scala)代码的jar,并通过S3将其上传到AWS EMR。我们打算通过使用ApacheLivy来运行此spark代码。 将jar复制到集群后,我们运行以下命令以使Livy可以访问jar:

hadoop fs-put/myjar.jar/

我们的概念验证EMR集群有1个m5.xLarge作为主节点,没有其他节点。我们刚刚为EMR启用了Spark和Livy

现在,我们使用此post方法将spark作业提交给: 正文: { “名称”:“请求名称”, “类名”:“我们的类名”, “文件”:“jarName”, “args”:[“stringArgs”] }

问题是,我想把这些post请求排成一个队列,让Livy一个接一个地运行post请求,而不是并行运行 此外,如果我们在Livy港瞬时请求,则未找到SparkUI的错误。
我面临着两个问题,任何解决方案都会非常有用。

我意识到我需要在我的post请求中添加“队列”键,但我找不到“队列”值。你能尝试下面的方法吗?可能是通过lambda执行livy提交;在这种情况下,您可以首先查询纱线(在REST端点上;对于最近
n
min内的作业),然后执行livy提交;如果只有
n
m
;U可以根据您的集群配置调整n、m;(示例:1,2开始)--这将以不同的方式为您提供所需的队列