Apache spark 在群集上运行Spark:初始作业未接受任何资源我有一个远程Ubuntu服务器，有4个内核和8G内存我的远程Ubuntu服务器上有一个Spark-2集群，由1个主服务器和1个从服务器组成_Apache Spark_Dataframe_Pyspark_Apache Spark Sql_Linode

Apache spark 在群集上运行Spark:初始作业未接受任何资源我有一个远程Ubuntu服务器，有4个内核和8G内存我的远程Ubuntu服务器上有一个Spark-2集群，由1个主服务器和1个从服务器组成

apache-spark dataframe pyspark

Apache spark 在群集上运行Spark:初始作业未接受任何资源我有一个远程Ubuntu服务器，有4个内核和8G内存我的远程Ubuntu服务器上有一个Spark-2集群，由1个主服务器和1个从服务器组成,apache-spark,dataframe,pyspark,apache-spark-sql,linode,Apache Spark,Dataframe,Pyspark,Apache Spark Sql,Linode,我已在MacBook上本地启动PySpark shell，并通过以下方式连接到远程服务器上的主节点： $ PYSPARK_PYTHON=python3 /vagrant/spark-2.0.0-bin-hadoop2.7/bin/pyspark --master spark://[server-ip]:7077 我尝试从网站上执行简单的Spark示例：从pyspark.sql导入SparkSession 火花=火花会话\ 建筑商先生\ .appName（“Python Spark SQL基

我已在MacBook上本地启动PySpark shell，并通过以下方式连接到远程服务器上的主节点：

$ PYSPARK_PYTHON=python3 /vagrant/spark-2.0.0-bin-hadoop2.7/bin/pyspark --master spark://[server-ip]:7077

我尝试从网站上执行简单的Spark示例：

从pyspark.sql导入SparkSession
火花=火花会话\
建筑商先生\
.appName（“Python Spark SQL基本示例”）\
.config（“spark.some.config.option”、“some value”）\
.getOrCreate（）
df=spark.read.json（“/path/to/spark-2.0.0-bin-hadoop2.7/examples/src/main/resources/people.json”）

我有错误

初始作业未接受任何资源；检查您的集群UI以确保工人已注册并拥有足够的资源

我的服务器和本地机器上都有足够的内存，但我一次又一次地遇到这个奇怪的错误。我的Spark集群有6G，我的脚本只使用4个内核，每个节点有1G内存

[

我在谷歌上搜索了这个错误，试图设置不同的内存配置，还禁用了两台机器上的防火墙，但这对我没有帮助。我不知道如何修复它

有人面临同样的问题吗？有什么想法吗

您正在以客户端模式提交应用程序。这意味着驱动程序进程已在本地计算机上启动

执行Spark应用程序时，所有计算机都必须能够相互通信。执行者很可能无法访问您的驱动程序进程（例如，它使用私有IP或隐藏在防火墙后面）。如果是这种情况，您可以通过检查执行者日志来确认（转到应用程序，选择状态为

已退出的工作进程中的一个，然后选中stderr
。您“应该”看到由于org.apache.spark.rpc.RpcTimeoutException
，executor正在失败）
有两种可能的解决方案：

从您的群集可以访问的计算机提交应用程序
以群集模式提交应用程序。这将使用群集资源启动驱动程序进程，因此您必须对此进行说明
您正在以客户端模式提交应用程序。这意味着驱动程序进程已在本地计算机上启动
执行Spark应用程序时，所有计算机都必须能够相互通信。执行者很可能无法访问您的驱动程序进程（例如，它使用私有IP或隐藏在防火墙后面）。如果是这种情况，您可以通过检查执行者日志来确认（转到应用程序，选择状态为已退出的工作进程中的一个，然后选中stderr
。您“应该”看到由于org.apache.spark.rpc.RpcTimeoutException
，executor正在失败）
有两种可能的解决方案：

从您的群集可以访问的计算机提交应用程序
以群集模式提交应用程序。这将使用群集资源启动驱动程序进程，因此您必须对此进行说明