Apache spark 如何在中层星团上运行PySpark(可能在客户端模式下)?

Apache spark 如何在中层星团上运行PySpark(可能在客户端模式下)?,apache-spark,pyspark,mesosphere,Apache Spark,Pyspark,Mesosphere,我试图在中间层星团上运行Pypark作业,但似乎无法运行。我知道Mesos不支持PySpark应用程序的集群部署模式,它需要在客户端模式下运行。我相信这就是问题所在 当我尝试提交PySpark作业时,我得到以下输出 ... socket.hpp:107] Shutdown failed on fd=48: Transport endpoint is not connected [107] 我认为在客户端模式下运行的spark作业需要直接连接到节点,这被阻止了吗 我需要更改什么配置才能在客户端模

我试图在中间层星团上运行Pypark作业,但似乎无法运行。我知道Mesos不支持PySpark应用程序的集群部署模式,它需要在客户端模式下运行。我相信这就是问题所在

当我尝试提交PySpark作业时,我得到以下输出

... socket.hpp:107] Shutdown failed on fd=48: Transport endpoint is not connected [107]
我认为在客户端模式下运行的spark作业需要直接连接到节点,这被阻止了吗


我需要更改什么配置才能在客户端模式下运行PySpark作业?

在客户端模式下运行PySpark时(意味着驱动程序正在调用Python的地方运行),驱动程序将成为Mesos框架。当这种情况发生时,运行框架的主机需要能够连接到集群中的所有节点,并且它们需要能够连接回来,这意味着没有NAT

如果这确实是问题的原因,那么有两个环境变量可能很有用。如果您可以设置VPN,则可以将
LIBPROCESS\u IP
SPARK\u LOCAL\u IP
都设置到主机的IP,群集节点可以使用该IP连接回驱动程序