Apache spark 谷歌云的Spark 1.4图像?

Apache spark 谷歌云的Spark 1.4图像?,apache-spark,google-hadoop,apache-spark-1.4,Apache Spark,Google Hadoop,Apache Spark 1.4,使用bdutil,我可以在spark 1.3.1上找到tarball的最新版本: gs://spark-dist/spark-1.3.1-bin-hadoop2.6.tgz Spark 1.4中有一些新的DataFrame特性我想使用。Spark 1.4映像是否有可能用于bdutil或其他解决方案 更新: 根据Angus Davis的建议,我下载并指向spark-1.4.1-bin-hadoop2.6.tgz,部署进展顺利;但是,在调用SqlContext.parquetFile()时遇到错误。

使用bdutil,我可以在spark 1.3.1上找到tarball的最新版本:

gs://spark-dist/spark-1.3.1-bin-hadoop2.6.tgz

Spark 1.4中有一些新的DataFrame特性我想使用。Spark 1.4映像是否有可能用于bdutil或其他解决方案

更新:

根据Angus Davis的建议,我下载并指向spark-1.4.1-bin-hadoop2.6.tgz,部署进展顺利;但是,在调用SqlContext.parquetFile()时遇到错误。我无法解释为什么会出现这种异常,GoogleHadoop文件系统应该是org.apache.hadoop.fs.FileSystem的子类。我们将继续对此进行调查

Caused by: java.lang.ClassCastException: com.google.cloud.hadoop.fs.gcs.GoogleHadoopFileSystem cannot be cast to org.apache.hadoop.fs.FileSystem
at org.apache.hadoop.fs.FileSystem.createFileSystem(FileSystem.java:2595)
at org.apache.hadoop.fs.FileSystem.access$200(FileSystem.java:91)
at org.apache.hadoop.fs.FileSystem$Cache.getInternal(FileSystem.java:2630)
at org.apache.hadoop.fs.FileSystem$Cache.get(FileSystem.java:2612)
at org.apache.hadoop.fs.FileSystem.get(FileSystem.java:370)
at org.apache.hadoop.fs.FileSystem.get(FileSystem.java:169)
at org.apache.hadoop.fs.FileSystem.get(FileSystem.java:354)
at org.apache.hadoop.fs.Path.getFileSystem(Path.java:296)
at org.apache.hadoop.hive.metastore.Warehouse.getFs(Warehouse.java:112)
at org.apache.hadoop.hive.metastore.Warehouse.getDnsPath(Warehouse.java:144)
at org.apache.hadoop.hive.metastore.Warehouse.getWhRoot(Warehouse.java:159)
at org.apache.hadoop.hive.metastore.Warehouse.getDefaultDatabasePath(Warehouse.java:177)
at org.apache.hadoop.hive.metastore.HiveMetaStore$HMSHandler.createDefaultDB_core(HiveMetaStore.java:504)
at org.apache.hadoop.hive.metastore.HiveMetaStore$HMSHandler.createDefaultDB(HiveMetaStore.java:523)
at org.apache.hadoop.hive.metastore.HiveMetaStore$HMSHandler.init(HiveMetaStore.java:397)
at org.apache.hadoop.hive.metastore.HiveMetaStore$HMSHandler.<init>(HiveMetaStore.java:356)
at org.apache.hadoop.hive.metastore.RetryingHMSHandler.<init>(RetryingHMSHandler.java:54)
at org.apache.hadoop.hive.metastore.RetryingHMSHandler.getProxy(RetryingHMSHandler.java:59)
at org.apache.hadoop.hive.metastore.HiveMetaStore.newHMSHandler(HiveMetaStore.java:4944)
at org.apache.hadoop.hive.metastore.HiveMetaStoreClient.<init>(HiveMetaStoreClient.java:171)
原因:java.lang.ClassCastException:com.google.cloud.hadoop.fs.gcs.GoogleHadoop文件系统无法强制转换为org.apache.hadoop.fs.FileSystem
位于org.apache.hadoop.fs.FileSystem.createFileSystem(FileSystem.java:2595)
位于org.apache.hadoop.fs.FileSystem.access$200(FileSystem.java:91)
位于org.apache.hadoop.fs.FileSystem$Cache.getInternal(FileSystem.java:2630)
位于org.apache.hadoop.fs.FileSystem$Cache.get(FileSystem.java:2612)
位于org.apache.hadoop.fs.FileSystem.get(FileSystem.java:370)
位于org.apache.hadoop.fs.FileSystem.get(FileSystem.java:169)
位于org.apache.hadoop.fs.FileSystem.get(FileSystem.java:354)
位于org.apache.hadoop.fs.Path.getFileSystem(Path.java:296)
位于org.apache.hadoop.hive.metastore.Warehouse.getFs(Warehouse.java:112)
位于org.apache.hadoop.hive.metastore.Warehouse.getDnsPath(Warehouse.java:144)
位于org.apache.hadoop.hive.metastore.Warehouse.getWhRoot(Warehouse.java:159)
位于org.apache.hadoop.hive.metastore.Warehouse.getDefaultDatabasePath(Warehouse.java:177)
位于org.apache.hadoop.hive.metastore.HiveMetaStore$HMSHandler.createDefaultDB_core(HiveMetaStore.java:504)
位于org.apache.hadoop.hive.metastore.HiveMetaStore$HMSHandler.createDefaultDB(HiveMetaStore.java:523)
位于org.apache.hadoop.hive.metastore.HiveMetaStore$HMSHandler.init(HiveMetaStore.java:397)
位于org.apache.hadoop.hive.metastore.HiveMetaStore$HMSHandler。(HiveMetaStore.java:356)
位于org.apache.hadoop.hive.metastore.RetryingHMSHandler(RetryingHMSHandler.java:54)
位于org.apache.hadoop.hive.metastore.RetryingHMSHandler.getProxy(RetryingHMSHandler.java:59)
位于org.apache.hadoop.hive.metastore.HiveMetaStore.newHMSHandler(HiveMetaStore.java:4944)
位于org.apache.hadoop.hive.metastore.HiveMetaStoreClient。(HiveMetaStoreClient.java:171)
问了一个关于例外情况的单独问题

更新:

这个错误被证明是火花缺陷;上述问题中提供的解决方案/解决方法

谢谢


Haiying

如果可以接受本地解决方案,则可以将spark-1.4.1-bin-hadoop2.6.tgz从apache镜像复制到您控制的存储桶中。然后,您可以编辑extensions/spark/spark-env.sh并更改spark\u HADOOP2\u TARBALL\u URI=''(确保运行您的VMs的服务帐户具有读取TARBALL的权限)


请注意,我现在还没有做任何测试,看看Spark 1.4.1是否可以开箱即用,但如果您决定试一试,我很想听听您的经验。

如果可以接受本地解决方案,您可以将Spark-1.4.1-bin-hadoop2.6.tgz从apache镜像复制到您控制的存储桶中。然后,您可以编辑extensions/spark/spark-env.sh并更改spark\u HADOOP2\u TARBALL\u URI=''(确保运行您的VMs的服务帐户具有读取TARBALL的权限)


请注意,我现在还没有做任何测试,看看Spark 1.4.1是否可以开箱即用,但如果您决定试一试,我很想听听您的经验。

如果可以接受本地解决方案,您可以将Spark-1.4.1-bin-hadoop2.6.tgz从apache镜像复制到您控制的存储桶中。然后,您可以编辑extensions/spark/spark-env.sh并更改spark\u HADOOP2\u TARBALL\u URI=''(确保运行您的VMs的服务帐户具有读取TARBALL的权限)


请注意,我现在还没有做任何测试,看看Spark 1.4.1是否可以开箱即用,但如果您决定试一试,我很想听听您的经验。

如果可以接受本地解决方案,您可以将Spark-1.4.1-bin-hadoop2.6.tgz从apache镜像复制到您控制的存储桶中。然后,您可以编辑extensions/spark/spark-env.sh并更改spark\u HADOOP2\u TARBALL\u URI=''(确保运行您的VMs的服务帐户具有读取TARBALL的权限)

请注意,我还没有做任何测试,看看Spark 1.4.1现在是否可以开箱即用,但如果您决定试一试,我很想听听您的经验