Apache spark 驱动程序进程能否在Spark群集之外运行?

Apache spark 驱动程序进程能否在Spark群集之外运行?,apache-spark,Apache Spark,我读了一封信 (在客户端模式下)您可以在笔记本电脑上运行spark submit,驱动程序也可以在笔记本电脑上运行 另外,Spark医生说 在客户端模式下,驱动程序与提交应用程序的客户端在相同的过程中启动 这是否意味着我可以从任何机器提交spark任务,只要它可以从master访问并且具有spark环境 或者换句话说,驱动程序进程是否可以在Spark群集之外运行?是的,驱动程序可以在您的笔记本电脑上运行。但请记住: Spark驱动程序需要Hadoop配置才能与Thread和HDFS通信。您可以

我读了一封信

(在客户端模式下)您可以在笔记本电脑上运行spark submit,驱动程序也可以在笔记本电脑上运行

另外,Spark医生说

在客户端模式下,驱动程序与提交应用程序的客户端在相同的过程中启动

这是否意味着我可以从任何机器提交spark任务,只要它可以从master访问并且具有spark环境


或者换句话说,驱动程序进程是否可以在Spark群集之外运行?

是的,驱动程序可以在您的笔记本电脑上运行。但请记住:

  • Spark驱动程序需要Hadoop配置才能与Thread和HDFS通信。您可以从集群复制它,并通过HADOOP\u CONF\u DIR指向它
  • Spark驱动程序将监听许多端口,并期望执行器能够连接到它。它将公布您笔记本电脑的主机名。确保可以解决此问题,并且可以从群集环境访问所有端口

是的,我正在使用选项--deploy mode cluster通过LAN运行spark submit作业。但是,目前遇到了问题:服务器响应(json对象)不是很具有描述性。

驱动程序需要与工作程序共享“相同类型的文件系统”:例如,要执行
dataframe.write(path)
则驱动程序和工作程序必须同时存在
path
,例如,如果工作人员使用Linux,而windows笔记本电脑上的驱动程序……
path
通常是
hdfs://...
。这不是Windows与Linux的问题。