Apache spark 无法在Cloudera Quickstart VM 5.3.0中使用Cloudera Manager添加新服务

Apache spark 无法在Cloudera Quickstart VM 5.3.0中使用Cloudera Manager添加新服务,apache-spark,cloudera,cloudera-manager,cloudera-quickstart-vm,Apache Spark,Cloudera,Cloudera Manager,Cloudera Quickstart Vm,我正在使用Cloudera Quickstart VM 5.3.0(在Windows 7上的Virtual Box 4.3中运行),我想学习Spark(在Thread上) 我开始担任Cloudera经理。在侧边栏我可以看到所有的服务,有火花,但在独立模式。所以我点击“添加新服务”,选择“Spark”。然后我必须为这个服务选择一组依赖项,我没有选择,我必须选择HDFS/Thread/zookeeper。 下一步我必须选择一个历史服务器和一个网关,我在本地模式下运行VM,所以我只能选择本地主机 我单

我正在使用Cloudera Quickstart VM 5.3.0(在Windows 7上的Virtual Box 4.3中运行),我想学习Spark(在Thread上)

我开始担任Cloudera经理。在侧边栏我可以看到所有的服务,有火花,但在独立模式。所以我点击“添加新服务”,选择“Spark”。然后我必须为这个服务选择一组依赖项,我没有选择,我必须选择HDFS/Thread/zookeeper。 下一步我必须选择一个历史服务器和一个网关,我在本地模式下运行VM,所以我只能选择本地主机

我单击“继续”,出现此错误(+69个记录道):

发生了服务器错误。将以下信息发送到 克劳德拉

路径:

版本:Cloudera Express 5.3.0(由jenkins于 20141216-1458吉特:E9AE1D1C1CE292D812B22B22BD1C29FF7AF355226)

org.springframework.web.bind.MissingServletRequestParameterException:必需 长参数“serviceId”在中不存在 中的AnnotationMethodHandlerAdapter.java行738 org.springframework.web.servlet.mvc.annotation.AnnotationMethodHandlerAdapter$ServletHandlerMethodInvoker raiseMissingParameterException()

我不知道是否需要internet连接,但我知道我无法使用VM连接到internet。(编辑:即使使用internet连接,我也会遇到相同的错误)

我不知道如何添加这项服务,我尝试了使用或不使用网关,许多网络选项,但从未奏效。我检查了已知的问题;没什么

有人知道我如何解决这个错误,或者我如何解决这个问题?谢谢你的帮助。

朱利安

在回答您的问题之前,我想对Hadoop 5(CDH5)Cloudera发行版中的Spark做一些一般性的说明:

  • Spark以三种不同的格式运行:(1)本地,(2)Spark自己的独立管理器,(3)其他集群资源管理器,如Hadoop Thread、Apache Mesos和Amazon EC2
  • Spark在(1)和(2)具有CHD 5的情况下工作。你可以发起一个本地的 使用
    sparkshell
    命令在Scala中进行交互式spark会话 或
    pyspark
    用于Python,但不传递任何参数。我发现了交互式Scala和Python 口译员帮助学习使用灵活的分布式语言编程 数据集(RDD)
  • 我能够在我的CDH 5.3.x发行版上重现您的错误。我本不想为你发现的错误负责,但是

    为了在QuickStart伪分布式环境中使用Spark,请使用以下命令查看是否所有Spark守护进程都在运行(您可以在Cloudera Manager(CM)UI中执行此操作):

    我已经手动停止了所有独立的Spark服务,因此我们可以尝试在短时间内提交Spark作业

    为了在quick start cluster上的纱线容器内运行Spark,我们必须执行以下操作:

  • HADOOP\u CONF\u DIR
    设置为包含
    warn site.xml
    配置文件的目录的根目录。这通常是CHD5中的
    /etc/hadoop/conf
    。您可以使用命令
    export HADOOP\u CONF\u DIR=“/etc/HADOOP/CONF”
    设置此变量
  • 使用
    spark Submit
    提交作业,并指定您使用的是Hadoop纱线。

    spark submit——类路径——主纱线JAR\u DIR参数
  • 检查色调中的作业状态,并与Spark History server进行比较。色调应显示放置在普通纱线容器中的作业,火花历史记录不应有提交作业的记录 使用的参考资料:

    • 学习火花,第7章

    您双击了吗?我希望我能。。。不幸的是,这不是因为双击。
    [cloudera@quickstart simplesparkapp]$ sudo service --status-all | grep -i spark
    Spark history-server is not running                        [FAILED]
    Spark master is not running                                [FAILED]
    Spark worker is not running                                [FAILED]