Spark和齐柏林飞艇连接到WASBS Azure Blob存储_Azure_Apache Spark_Azure Storage_Azure Storage Blobs_Apache Zeppelin

Spark和齐柏林飞艇连接到WASBS Azure Blob存储

azure apache-spark

Spark和齐柏林飞艇连接到WASBS Azure Blob存储,azure,apache-spark,azure-storage,azure-storage-blobs,apache-zeppelin,Azure,Apache Spark,Azure Storage,Azure Storage Blobs,Apache Zeppelin,我试图在Spark旁边的容器中运行齐柏林飞艇，并从Azure Blob存储中读取文件我的齐柏林飞艇容器配置为将Spark作业发送到Kubernetes集群上运行在不同容器中的主服务器当我试图从Azure读取文件时，我得到以下错误： java.io.IOException: No FileSystem for scheme: wasbs at org.apache.hadoop.fs.FileSystem.getFileSystemClass(FileSystem.java:2660)

我试图在Spark旁边的容器中运行齐柏林飞艇，并从Azure Blob存储中读取文件

我的齐柏林飞艇容器配置为将Spark作业发送到Kubernetes集群上运行在不同容器中的主服务器

当我试图从Azure读取文件时，我得到以下错误：

java.io.IOException: No FileSystem for scheme: wasbs
  at org.apache.hadoop.fs.FileSystem.getFileSystemClass(FileSystem.java:2660)
  at org.apache.hadoop.fs.FileSystem.createFileSystem(FileSystem.java:2667)
  at org.apache.hadoop.fs.FileSystem.access$200(FileSystem.java:94)
  at org.apache.hadoop.fs.FileSystem$Cache.getInternal(FileSystem.java:2703)
  at org.apache.hadoop.fs.FileSystem$Cache.get(FileSystem.java:2685)
  at org.apache.hadoop.fs.FileSystem.get(FileSystem.java:373)
  at org.apache.hadoop.fs.Path.getFileSystem(Path.java:295)
  at org.apache.spark.sql.execution.datasources.DataSource$$anonfun$org$apache$spark$sql$execution$datasources$DataSource$$checkAndGlobPathIfNecessary$1.apply(DataSource.scala:547)
  at org.apache.spark.sql.execution.datasources.DataSource$$anonfun$org$apache$spark$sql$execution$datasources$DataSource$$checkAndGlobPathIfNecessary$1.apply(DataSource.scala:545)
  at scala.collection.TraversableLike$$anonfun$flatMap$1.apply(TraversableLike.scala:241)
  at scala.collection.TraversableLike$$anonfun$flatMap$1.apply(TraversableLike.scala:241)
  at scala.collection.immutable.List.foreach(List.scala:392)
  at scala.collection.TraversableLike$class.flatMap(TraversableLike.scala:241)
  at scala.collection.immutable.List.flatMap(List.scala:355)
  at org.apache.spark.sql.execution.datasources.DataSource.org$apache$spark$sql$execution$datasources$DataSource$$checkAndGlobPathIfNecessary(DataSource.scala:545)
  at org.apache.spark.sql.execution.datasources.DataSource.resolveRelation(DataSource.scala:359)
  at org.apache.spark.sql.DataFrameReader.loadV1Source(DataFrameReader.scala:223)
  at org.apache.spark.sql.DataFrameReader.load(DataFrameReader.scala:211)
  at org.apache.spark.sql.DataFrameReader.load(DataFrameReader.scala:178)
  at AccumuloClusterWriter$.main(<console>:62)

我开始出现以下错误：

java.lang.NoClassDefFoundError:org/apache/hadoop/fs/StreamCapabilities

我正在运行齐柏林飞艇0.8.1和Spark 2.4.3

我的类路径如下；

：/jars/hadoop-azure-2.7.0.jar:/jars/azure-storage-3.1.0.jar:

hadoop azure和azure存储jar位于我的Spark jars目录中

我感到困惑的一件事是，我的代码是在齐柏林飞艇容器上运行，还是在一个集群节点上运行。我一直在试图纠正齐柏林飞艇容器上的这个问题，但我想知道错误配置是否在Spark Master容器上

在这一点上，我们非常感谢任何指导和帮助

你找到解决办法了吗？它可以很好地处理原始spark，因为它包含这些LIB。但是当我尝试使用

--jars

参数进行jars时，nomad spark失败了。您找到解决方案了吗？它可以很好地处理原始spark，因为它包含这些LIB。但是当我尝试使用

--jars

参数进行jars时，nomad spark失败

sc.hadoopConfiguration.set("fs.wasb.impl", "org.apache.hadoop.fs.azure.NativeAzureFileSystem")
sc.hadoopConfiguration.set("fs.AbstractFileSystem.wasb.impl", "org.apache.hadoop.fs.azure.Wasb")

sc.hadoopConfiguration.set("fs.wasbs.impl", "org.apache.hadoop.fs.azure.NativeAzureFileSystem")
sc.hadoopConfiguration.set("fs.AbstractFileSystem.wasbs.impl", "org.apache.hadoop.fs.azure.Wasbs")