Apache spark 在群集上运行Spark:初始作业未接受任何资源 我有一个远程Ubuntu服务器,有4个内核和8G内存 我的远程Ubuntu服务器上有一个Spark-2集群,由1个主服务器和1个从服务器组成
我已在MacBook上本地启动PySpark shell,并通过以下方式连接到远程服务器上的主节点:Apache spark 在群集上运行Spark:初始作业未接受任何资源 我有一个远程Ubuntu服务器,有4个内核和8G内存 我的远程Ubuntu服务器上有一个Spark-2集群,由1个主服务器和1个从服务器组成,apache-spark,dataframe,pyspark,apache-spark-sql,linode,Apache Spark,Dataframe,Pyspark,Apache Spark Sql,Linode,我已在MacBook上本地启动PySpark shell,并通过以下方式连接到远程服务器上的主节点: $ PYSPARK_PYTHON=python3 /vagrant/spark-2.0.0-bin-hadoop2.7/bin/pyspark --master spark://[server-ip]:7077 我尝试从网站上执行简单的Spark示例: 从pyspark.sql导入SparkSession 火花=火花会话\ 建筑商先生\ .appName(“Python Spark SQL基
$ PYSPARK_PYTHON=python3 /vagrant/spark-2.0.0-bin-hadoop2.7/bin/pyspark --master spark://[server-ip]:7077
从pyspark.sql导入SparkSession
火花=火花会话\
建筑商先生\
.appName(“Python Spark SQL基本示例”)\
.config(“spark.some.config.option”、“some value”)\
.getOrCreate()
df=spark.read.json(“/path/to/spark-2.0.0-bin-hadoop2.7/examples/src/main/resources/people.json”)
您正在以客户端模式提交应用程序。这意味着驱动程序进程已在本地计算机上启动 执行Spark应用程序时,所有计算机都必须能够相互通信。执行者很可能无法访问您的驱动程序进程(例如,它使用私有IP或隐藏在防火墙后面)。如果是这种情况,您可以通过检查执行者日志来确认(转到应用程序,选择状态为
已退出的工作进程中的一个,然后选中stderr
。您“应该”看到由于org.apache.spark.rpc.RpcTimeoutException
,executor正在失败)
有两种可能的解决方案:
- 从您的群集可以访问的计算机提交应用程序
- 以群集模式提交应用程序。这将使用群集资源启动驱动程序进程,因此您必须对此进行说明
您正在以客户端模式提交应用程序。这意味着驱动程序进程已在本地计算机上启动
执行Spark应用程序时,所有计算机都必须能够相互通信。执行者很可能无法访问您的驱动程序进程(例如,它使用私有IP或隐藏在防火墙后面)。如果是这种情况,您可以通过检查执行者日志来确认(转到应用程序,选择状态为
已退出的工作进程中的一个,然后选中stderr
。您“应该”看到由于org.apache.spark.rpc.RpcTimeoutException
,executor正在失败)
有两种可能的解决方案:
- 从您的群集可以访问的计算机提交应用程序
- 以群集模式提交应用程序。这将使用群集资源启动驱动程序进程,因此您必须对此进行说明