Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark 如何通过AWS数据管线在AWS EMR集群中运行多个并行spark作业_Apache Spark_Amazon Emr_Amazon Data Pipeline - Fatal编程技术网

Apache spark 如何通过AWS数据管线在AWS EMR集群中运行多个并行spark作业

Apache spark 如何通过AWS数据管线在AWS EMR集群中运行多个并行spark作业,apache-spark,amazon-emr,amazon-data-pipeline,Apache Spark,Amazon Emr,Amazon Data Pipeline,我正在尝试使用AWS数据管道设置在EMR集群中运行spark作业的流程。我们的流程按照“按需”时间表运行 作为此活动的一部分,我们在管线的开始处创建一个EMR集群,然后我们希望在一个EMR集群上并行运行多个spark作业 是否有一个“按需”计划可以在数据管线上运行并行作业。您可以查看此示例 基本上,您需要使用ssh提交连接到emr的作业,并亲自观察作业的执行情况 但它没有使用aws数据管道…您可以查看此示例 基本上,您需要使用ssh提交连接到emr的作业,并亲自观察作业的执行情况 但是它没有使用

我正在尝试使用AWS数据管道设置在EMR集群中运行spark作业的流程。我们的流程按照“按需”时间表运行

作为此活动的一部分,我们在管线的开始处创建一个EMR集群,然后我们希望在一个EMR集群上并行运行多个spark作业


是否有一个“按需”计划可以在数据管线上运行并行作业。

您可以查看此示例
基本上,您需要使用ssh提交连接到emr的作业,并亲自观察作业的执行情况
但它没有使用aws数据管道…

您可以查看此示例
基本上,您需要使用ssh提交连接到emr的作业,并亲自观察作业的执行情况
但是它没有使用aws数据管道…

为集群分配一个“工作组”,并让所有Spark活动在那里运行。如果他们不相互依赖,他们应该同时开始。然后,您可能只需要配置Spark on Thread(或任何调度器),以最有效的方式处理并发作业。谢谢,此选项有效。除此之外,是否可以在我的操作失败时运行单独的活动(可以是任何活动)。我看只有我们可以发送通知。我可以通过lambda处理我的通知,并且可以处理它。但是在同一管道中是否有可能使用。@user4601931您可以分享关于如何配置纱线以处理并发线程的更多详细信息吗jobs@Abhi查看或为集群分配一个“工作组”,并在那里运行所有Spark活动。如果他们不相互依赖,他们应该同时开始。然后,您可能只需要配置Spark on Thread(或任何调度器),以最有效的方式处理并发作业。谢谢,此选项有效。除此之外,是否可以在我的操作失败时运行单独的活动(可以是任何活动)。我看只有我们可以发送通知。我可以通过lambda处理我的通知,并且可以处理它。但是在同一管道中是否有可能使用。@user4601931您可以分享关于如何配置纱线以处理并发线程的更多详细信息吗jobs@Abhi看到或