如何使用Spark/Scala从Azure blob获取文件列表?
如何从Spark和Scala中的Azure blob存储中获取文件列表如何使用Spark/Scala从Azure blob获取文件列表?,azure,apache-spark,spark-streaming,spark-dataframe,azure-storage-blobs,Azure,Apache Spark,Spark Streaming,Spark Dataframe,Azure Storage Blobs,如何从Spark和Scala中的Azure blob存储中获取文件列表 我不知道该怎么做 我不知道你使用的Spark是在Azure上还是在本地。因此,它们是两种情况,但相似 对于在本地运行的Spark,有一个官方介绍如何从Spark访问Azure Blob存储。关键是您需要在core site.xml文件中将Azure存储帐户配置为HDFS兼容存储,并将两个JARhadoop Azure&Azure存储添加到您的类路径中,以便通过协议wasb[s]访问HDFS。有关HDInsight的更多详细信
我不知道该怎么做 我不知道你使用的Spark是在Azure上还是在本地。因此,它们是两种情况,但相似
core site.xml
文件中将Azure存储帐户配置为HDFS兼容存储,并将两个JARhadoop Azure
&Azure存储
添加到您的类路径中,以便通过协议wasb[s]
访问HDFS。有关HDInsight的更多详细信息,请参阅“了解与wasb兼容的HDFS存储”的官方文件和“关于配置”wasb
访问HDFS,其他准备工作由Azure在使用Spark创建HDInsight群集时完成SparkContext
希望有帮助。如果您使用的是databricks,请尝试以下方法 dbutils.fs.ls(“blob\u存储位置”)