Spark和齐柏林飞艇连接到WASBS Azure Blob存储

Spark和齐柏林飞艇连接到WASBS Azure Blob存储,azure,apache-spark,azure-storage,azure-storage-blobs,apache-zeppelin,Azure,Apache Spark,Azure Storage,Azure Storage Blobs,Apache Zeppelin,我试图在Spark旁边的容器中运行齐柏林飞艇,并从Azure Blob存储中读取文件 我的齐柏林飞艇容器配置为将Spark作业发送到Kubernetes集群上运行在不同容器中的主服务器 当我试图从Azure读取文件时,我得到以下错误: java.io.IOException: No FileSystem for scheme: wasbs at org.apache.hadoop.fs.FileSystem.getFileSystemClass(FileSystem.java:2660)

我试图在Spark旁边的容器中运行齐柏林飞艇,并从Azure Blob存储中读取文件

我的齐柏林飞艇容器配置为将Spark作业发送到Kubernetes集群上运行在不同容器中的主服务器

当我试图从Azure读取文件时,我得到以下错误:

java.io.IOException: No FileSystem for scheme: wasbs
  at org.apache.hadoop.fs.FileSystem.getFileSystemClass(FileSystem.java:2660)
  at org.apache.hadoop.fs.FileSystem.createFileSystem(FileSystem.java:2667)
  at org.apache.hadoop.fs.FileSystem.access$200(FileSystem.java:94)
  at org.apache.hadoop.fs.FileSystem$Cache.getInternal(FileSystem.java:2703)
  at org.apache.hadoop.fs.FileSystem$Cache.get(FileSystem.java:2685)
  at org.apache.hadoop.fs.FileSystem.get(FileSystem.java:373)
  at org.apache.hadoop.fs.Path.getFileSystem(Path.java:295)
  at org.apache.spark.sql.execution.datasources.DataSource$$anonfun$org$apache$spark$sql$execution$datasources$DataSource$$checkAndGlobPathIfNecessary$1.apply(DataSource.scala:547)
  at org.apache.spark.sql.execution.datasources.DataSource$$anonfun$org$apache$spark$sql$execution$datasources$DataSource$$checkAndGlobPathIfNecessary$1.apply(DataSource.scala:545)
  at scala.collection.TraversableLike$$anonfun$flatMap$1.apply(TraversableLike.scala:241)
  at scala.collection.TraversableLike$$anonfun$flatMap$1.apply(TraversableLike.scala:241)
  at scala.collection.immutable.List.foreach(List.scala:392)
  at scala.collection.TraversableLike$class.flatMap(TraversableLike.scala:241)
  at scala.collection.immutable.List.flatMap(List.scala:355)
  at org.apache.spark.sql.execution.datasources.DataSource.org$apache$spark$sql$execution$datasources$DataSource$$checkAndGlobPathIfNecessary(DataSource.scala:545)
  at org.apache.spark.sql.execution.datasources.DataSource.resolveRelation(DataSource.scala:359)
  at org.apache.spark.sql.DataFrameReader.loadV1Source(DataFrameReader.scala:223)
  at org.apache.spark.sql.DataFrameReader.load(DataFrameReader.scala:211)
  at org.apache.spark.sql.DataFrameReader.load(DataFrameReader.scala:178)
  at AccumuloClusterWriter$.main(<console>:62)
我开始出现以下错误:
java.lang.NoClassDefFoundError:org/apache/hadoop/fs/StreamCapabilities

我正在运行齐柏林飞艇0.8.1和Spark 2.4.3

我的类路径如下;
:/jars/hadoop-azure-2.7.0.jar:/jars/azure-storage-3.1.0.jar:

hadoop azure和azure存储jar位于我的Spark jars目录中

我感到困惑的一件事是,我的代码是在齐柏林飞艇容器上运行,还是在一个集群节点上运行。我一直在试图纠正齐柏林飞艇容器上的这个问题,但我想知道错误配置是否在Spark Master容器上


在这一点上,我们非常感谢任何指导和帮助

你找到解决办法了吗?它可以很好地处理原始spark,因为它包含这些LIB。但是当我尝试使用
--jars
参数进行jars时,nomad spark失败了。您找到解决方案了吗?它可以很好地处理原始spark,因为它包含这些LIB。但是当我尝试使用
--jars
参数进行jars时,nomad spark失败
sc.hadoopConfiguration.set("fs.wasb.impl", "org.apache.hadoop.fs.azure.NativeAzureFileSystem")
sc.hadoopConfiguration.set("fs.AbstractFileSystem.wasb.impl", "org.apache.hadoop.fs.azure.Wasb")

sc.hadoopConfiguration.set("fs.wasbs.impl", "org.apache.hadoop.fs.azure.NativeAzureFileSystem")
sc.hadoopConfiguration.set("fs.AbstractFileSystem.wasbs.impl", "org.apache.hadoop.fs.azure.Wasbs")