Apache spark （bdutil）无法使hadoop/spark群集使用新安装_Apache Spark_Google Hadoop

Apache spark （bdutil）无法使hadoop/spark群集使用新安装

apache-spark

Apache spark （bdutil）无法使hadoop/spark群集使用新安装,apache-spark,google-hadoop,Apache Spark,Google Hadoop,我在GCE中设置了一个小型集群来处理它，但尽管创建了一些实例，但一些故障阻止了它的工作。我正在遵循中的步骤到目前为止，我正在使用（到目前为止）新安装的最新版本的gcloud（143.0.0）和bdutil（1.3.5） ./bdutil deploy -e extensions/spark/spark_env.sh 使用debian-8作为映像（因为bdutil仍然使用debian-7-backport）在某个时候我 Fri Feb 10 16:19:34 CET 2017: Comman

我在GCE中设置了一个小型集群来处理它，但尽管创建了一些实例，但一些故障阻止了它的工作。我正在遵循中的步骤

到目前为止，我正在使用（到目前为止）新安装的最新版本的gcloud（143.0.0）和bdutil（1.3.5）

./bdutil deploy -e extensions/spark/spark_env.sh

使用debian-8作为映像（因为bdutil仍然使用debian-7-backport）

在某个时候我

Fri Feb 10 16:19:34 CET 2017: Command failed: wait ${SUBPROC} on line 326.
Fri Feb 10 16:19:34 CET 2017: Exit code of failed command: 1

完整的调试输出在中（项目id和bucket名称已更改）

实例已创建，但spark尚未安装。我已经设法在ssh之后运行spark安装，并在master中启动hadoop命令。但在启动

火花壳时严重失败

：

17/02/10 15:53:20 INFO gcs.GoogleHadoopFileSystemBase: GHFS version: 1.4.5-hadoop1
17/02/10 15:53:20 INFO gcsio.FileSystemBackedDirectoryListCache: Creating '/hadoop_gcs_connector_metadata_cache' with createDirectories()...
java.lang.RuntimeException: java.lang.RuntimeException: java.nio.file.AccessDeniedException: /hadoop_gcs_connector_metadata_cache
    at org.apache.hadoop.hive.ql.session.SessionState.start(SessionState.java:522)

并且无法

导入sparkSQL

。就我所读到的内容而言，一切都应该自动启动

到目前为止，我有点不知所措，不知道还能做什么。我是否遗漏了任何一步？是否有任何命令出错？提前谢谢

更新：已解决正如公认的解决方案中指出的，我克隆了repo，创建集群时没有出现问题。当试图启动火花壳时，尽管它发出

java.lang.RuntimeException: java.io.IOException: GoogleHadoopFileSystem has been closed or not initialized.`

这听起来像是连接器没有正确初始化，所以在运行之后

 ./bdutil --env_var_files extensions/spark/spark_env.sh,bigquery_env.sh run_command_group install_connectors

它按预期工作。

上的bdutil的最新版本有点过时，我建议在github上使用bdutil的head版本：