Apache spark 可以使用脚本启动Spark群集节点吗?

Apache spark 可以使用脚本启动Spark群集节点吗?,apache-spark,amazon-ec2,Apache Spark,Amazon Ec2,我在AWSEC2的四节点集群上运行Hadoop和Spark 在做了大量的web研究之后,在集群上启动Spark(一旦Hadoop运行)的公认方法是: 1) 登录主节点并运行start-master.sh 2) 登录到每个从属节点并运行start-slave.sh,向其传递主节点的DNS和端口信息 我的问题是:如果有,比方说20个节点,这是相当乏味和耗时的。有没有一种方法可以像Hadoop启动那样从某个本地化位置启动Spark?从主节点运行Hadoop时,它会远程启动所有从节点。我正在寻找这样的解

我在AWSEC2的四节点集群上运行Hadoop和Spark

在做了大量的web研究之后,在集群上启动Spark(一旦Hadoop运行)的公认方法是:

1) 登录主节点并运行start-master.sh

2) 登录到每个从属节点并运行start-slave.sh,向其传递主节点的DNS和端口信息


我的问题是:如果有,比方说20个节点,这是相当乏味和耗时的。有没有一种方法可以像Hadoop启动那样从某个本地化位置启动Spark?从主节点运行Hadoop时,它会远程启动所有从节点。我正在寻找这样的解决方案,或者寻找一个python脚本,它可以通过SSH连接到节点并启动它们。

您可以使用Apache Ambari来管理整个集群,这将为您连接到所有节点

否则,您可以使用像Ansible这样的系统来配置和启动所有服务


听起来您只是在使用Spark Standalone,而不是Thread,因为Thread没有start slaves脚本

,还有其他替代方案,如EMR或Qubole,可以为您管理集群