如何在Windows计算机上为Spark应用程序设置群集环境?

如何在Windows计算机上为Spark应用程序设置群集环境?,windows,apache-spark,mesos,apache-spark-standalone,Windows,Apache Spark,Mesos,Apache Spark Standalone,我一直在pyspark中使用spark独立非集群模式进行开发。这些天,我想更多地探讨spark的集群模式。我在互联网上搜索,发现我可能需要一个集群管理器来使用ApacheMesos或Spark Standalone在不同的机器上运行集群。但是,我很难找到照片的细节 为了在多台windows计算机(或多台windows虚拟机)中运行spark群集,我应该如何从系统设计的角度进行设置 您可能希望探索(从最简单的)Spark单机版,通过Hadoop Thread到Apache Mesos或DC/OS。

我一直在pyspark中使用spark独立非集群模式进行开发。这些天,我想更多地探讨spark的集群模式。我在互联网上搜索,发现我可能需要一个集群管理器来使用ApacheMesos或Spark Standalone在不同的机器上运行集群。但是,我很难找到照片的细节

为了在多台windows计算机(或多台windows虚拟机)中运行spark群集,我应该如何从系统设计的角度进行设置

您可能希望探索(从最简单的)Spark单机版,通过Hadoop Thread到Apache Mesos或DC/OS。看

我建议首先使用Spark Standalone(作为提交Spark应用程序的最简单选项)。Spark Standalone包含在任何Spark安装中,可在Windows上正常工作。问题是没有脚本来启动和停止Windows操作系统的独立主程序和辅助程序(也称为从属程序)。你只需要自己“编码”它们

使用以下命令在Windows上启动独立主机:

// terminal 1
bin\spark-class org.apache.spark.deploy.master.Master
请注意,启动standalone Master后,您不会得到任何输入,但请不要担心,然后前往Spark standalone集群查看web UI

在单独的终端中启动独立工作程序的实例

// terminal 2
bin\spark-class org.apache.spark.deploy.worker.Worker spark://localhost:7077
使用一个worker Spark独立群集,您应该能够提交Spark应用程序,如下所示:

spark-submit --master spark://localhost:7077 ...
阅读Spark的官方文档


正如我刚刚发现的,Mesos不是一个选项,因为它:

Mesos在Linux(64位)和Mac OS X(64位)上运行

但是,您可以使用使用VirtualBox或类似工具的虚拟机运行任何集群。至少DC/OS有这样的功能,可以让它变得相当简单:

dcos vagrant在本地计算机上快速配置DC/OS群集,以进行开发、测试或演示

部署DC/OS Vagrant涉及使用dcos Vagrant box基本映像创建VirtualBox VM的本地群集,然后安装DC/OS


文档说明非常清楚。。。独立运行很好,而且mesos不会在windows上运行。我很惊讶地发现mesos并没有完全在windows上运行。Mesos代理可以正常运行,但这肯定不是一个解决方案-->。