Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark 在群集上运行Spark:初始作业未接受任何资源 我有一个远程Ubuntu服务器,有4个内核和8G内存 我的远程Ubuntu服务器上有一个Spark-2集群,由1个主服务器和1个从服务器组成_Apache Spark_Dataframe_Pyspark_Apache Spark Sql_Linode - Fatal编程技术网

Apache spark 在群集上运行Spark:初始作业未接受任何资源 我有一个远程Ubuntu服务器,有4个内核和8G内存 我的远程Ubuntu服务器上有一个Spark-2集群,由1个主服务器和1个从服务器组成

Apache spark 在群集上运行Spark:初始作业未接受任何资源 我有一个远程Ubuntu服务器,有4个内核和8G内存 我的远程Ubuntu服务器上有一个Spark-2集群,由1个主服务器和1个从服务器组成,apache-spark,dataframe,pyspark,apache-spark-sql,linode,Apache Spark,Dataframe,Pyspark,Apache Spark Sql,Linode,我已在MacBook上本地启动PySpark shell,并通过以下方式连接到远程服务器上的主节点: $ PYSPARK_PYTHON=python3 /vagrant/spark-2.0.0-bin-hadoop2.7/bin/pyspark --master spark://[server-ip]:7077 我尝试从网站上执行简单的Spark示例: 从pyspark.sql导入SparkSession 火花=火花会话\ 建筑商先生\ .appName(“Python Spark SQL基

我已在MacBook上本地启动PySpark shell,并通过以下方式连接到远程服务器上的主节点:

$ PYSPARK_PYTHON=python3 /vagrant/spark-2.0.0-bin-hadoop2.7/bin/pyspark --master spark://[server-ip]:7077
  • 我尝试从网站上执行简单的Spark示例:

    从pyspark.sql导入SparkSession
    火花=火花会话\
    建筑商先生\
    .appName(“Python Spark SQL基本示例”)\
    .config(“spark.some.config.option”、“some value”)\
    .getOrCreate()
    df=spark.read.json(“/path/to/spark-2.0.0-bin-hadoop2.7/examples/src/main/resources/people.json”)
    
  • 我有错误

    初始作业未接受任何资源;检查您的集群UI以 确保工人已注册并拥有足够的资源

  • 我的服务器和本地机器上都有足够的内存,但我一次又一次地遇到这个奇怪的错误。我的Spark集群有6G,我的脚本只使用4个内核,每个节点有1G内存

    [

  • 我在谷歌上搜索了这个错误,试图设置不同的内存配置,还禁用了两台机器上的防火墙,但这对我没有帮助。我不知道如何修复它

  • 有人面临同样的问题吗?有什么想法吗


  • 您正在以客户端模式提交应用程序。这意味着驱动程序进程已在本地计算机上启动

    执行Spark应用程序时,所有计算机都必须能够相互通信。执行者很可能无法访问您的驱动程序进程(例如,它使用私有IP或隐藏在防火墙后面)。如果是这种情况,您可以通过检查执行者日志来确认(转到应用程序,选择状态为
    已退出的工作进程中的一个,然后选中
    stderr
    。您“应该”看到由于
    org.apache.spark.rpc.RpcTimeoutException
    ,executor正在失败)

    有两种可能的解决方案:

    • 从您的群集可以访问的计算机提交应用程序
    • 以群集模式提交应用程序。这将使用群集资源启动驱动程序进程,因此您必须对此进行说明

      • 您正在以客户端模式提交应用程序。这意味着驱动程序进程已在本地计算机上启动

        执行Spark应用程序时,所有计算机都必须能够相互通信。执行者很可能无法访问您的驱动程序进程(例如,它使用私有IP或隐藏在防火墙后面)。如果是这种情况,您可以通过检查执行者日志来确认(转到应用程序,选择状态为
        已退出的工作进程中的一个,然后选中
        stderr
        。您“应该”看到由于
        org.apache.spark.rpc.RpcTimeoutException
        ,executor正在失败)

        有两种可能的解决方案:

        • 从您的群集可以访问的计算机提交应用程序
        • 以群集模式提交应用程序。这将使用群集资源启动驱动程序进程,因此您必须对此进行说明