Apache spark Spark独立模式：连接异常时失败：_Apache Spark

Apache spark Spark独立模式：连接异常时失败：

apache-spark

Apache spark Spark独立模式：连接异常时失败：,apache-spark,Apache Spark,我正在虚拟机（Ubuntu 12.04）上运行spark（1.2.1）独立群集。我可以成功地运行示例，例如als.py和pi.py。但是我无法运行workcount.py示例，因为将发生连接错误 bin/spark-submit --master spark://192.168.1.211:7077 /examples/src/main/python/wordcount.py ~/Documents/Spark_Examples/wordcount.py 错误消息如下所示：

我正在虚拟机（Ubuntu 12.04）上运行spark（1.2.1）独立群集。我可以成功地运行示例，例如als.py和pi.py。但是我无法运行workcount.py示例，因为将发生连接错误

     bin/spark-submit --master spark://192.168.1.211:7077 /examples/src/main/python/wordcount.py ~/Documents/Spark_Examples/wordcount.py

错误消息如下所示：

    15/03/13 22:26:02 INFO BlockManagerMasterActor: Registering block manager a12:45594 with 267.3 MB RAM, BlockManagerId(0, a12, 45594)
    15/03/13 22:26:03 INFO Client: Retrying connect to server: a11/192.168.1.211:9000. Already tried 4 time(s).
    ......
    Traceback (most recent call last):
    File "/home/spark/spark/examples/src/main/python/wordcount.py", line 32, in <module>
    .reduceByKey(add)
    File "/home/spark/spark/lib/spark-assembly-1.2.1 hadoop1.0.4.jar/pyspark/rdd.py", line 1349, in reduceByKey
    File "/home/spark/spark/lib/spark-assembly-1.2.1-hadoop1.0.4.jar/pyspark/rdd.py", line 1559, in combineByKey
    File "/home/spark/spark/lib/spark-assembly-1.2.1-hadoop1.0.4.jar/pyspark/rdd.py", line 1942, in _defaultReducePartitions
    File "/home/spark/spark/lib/spark-assembly-1.2.1-hadoop1.0.4.jar/pyspark/rdd.py", line 297, in getNumPartitions
    ......
    py4j.protocol.Py4JJavaError: An error occurred while calling o23.partitions.
    java.lang.RuntimeException: java.net.ConnectException: Call to a11/192.168.1.211:9000 failed on connection exception: java.net.ConnectException: Connection refused
    ......

15/03/13 22:26:02信息块管理器管理员：使用267.3 MB RAM注册块管理器a12:45594，块管理器RID（0，a12，45594）
15/03/13 22:26:03信息客户端：正在重试连接到服务器：a11/192.168.1.211:9000。已尝试了4次。
......
回溯（最近一次呼叫最后一次）：
文件“/home/spark/spark/examples/src/main/python/wordcount.py”，第32行，在
.reduceByKey（添加）
reduceByKey中的文件“/home/spark/spark/lib/spark-assembly-1.2.1 hadoop1.0.4.jar/pyspark/rdd.py”，第1349行
combineByKey中的文件“/home/spark/spark/lib/spark-assembly-1.2.1-hadoop1.0.4.jar/pyspark/rdd.py”，第1559行
文件“/home/spark/spark/lib/spark-assembly-1.2.1-hadoop1.0.4.jar/pyspark/rdd.py”，第1942行，在_defaultReducePartitions中
getNumPartitions中的文件“/home/spark/spark/lib/spark-assembly-1.2.1-hadoop1.0.4.jar/pyspark/rdd.py”，第297行
......
py4j.protocol.Py4JJavaError:调用o23.0分区时出错。
java.lang.RuntimeException:java.net.ConnectException:调用a11/192.168.1.211:9000失败，连接异常：java.net.ConnectException:连接被拒绝
......

我没有使用纱线或动物园管理员。所有虚拟机都可以通过ssh连接，无需密码。我还为master和Worker设置了SPARK\u LOCAL\u IP。

我认为wordcount.py的示例是访问hdfs以读取文件中的行（然后计算单词）比如：

sc.textFile("hdfs://<master-hostname>:9000/path/to/whatever")

sc.textFile（“hdfs://:9000/path/to/where”）

端口9000通常用于hdfs。请确保此文件可访问，或者不使用hdfs（例如：）。我希望有帮助