如何使用Spark/Scala从Azure blob获取文件列表？_Azure_Apache Spark_Spark Streaming_Spark Dataframe_Azure Storage Blobs

如何使用Spark/Scala从Azure blob获取文件列表？

azure apache-spark

如何使用Spark/Scala从Azure blob获取文件列表？,azure,apache-spark,spark-streaming,spark-dataframe,azure-storage-blobs,Azure,Apache Spark,Spark Streaming,Spark Dataframe,Azure Storage Blobs,如何从Spark和Scala中的Azure blob存储中获取文件列表我不知道该怎么做我不知道你使用的Spark是在Azure上还是在本地。因此，它们是两种情况，但相似对于在本地运行的Spark，有一个官方介绍如何从Spark访问Azure Blob存储。关键是您需要在core site.xml文件中将Azure存储帐户配置为HDFS兼容存储，并将两个JARhadoop Azure&Azure存储添加到您的类路径中，以便通过协议wasb[s]访问HDFS。有关HDInsight的更多详细信

如何从Spark和Scala中的Azure blob存储中获取文件列表

我不知道该怎么做

我不知道你使用的Spark是在Azure上还是在本地。因此，它们是两种情况，但相似

对于在本地运行的Spark，有一个官方介绍如何从Spark访问Azure Blob存储。关键是您需要在

core site.xml

文件中将Azure存储帐户配置为HDFS兼容存储，并将两个JAR

hadoop Azure

Azure存储

添加到您的类路径中，以便通过协议

wasb[s]

访问HDFS。有关HDInsight的更多详细信息，请参阅“了解与wasb兼容的HDFS存储”的官方文件和“关于配置”

对于在Azure上运行的Spark，区别在于仅使用

wasb

访问HDFS，其他准备工作由Azure在使用Spark创建HDInsight群集时完成

列出文件的方法是或

SparkContext

希望有帮助。

如果您使用的是databricks，请尝试以下方法

dbutils.fs.ls（“blob\u存储位置”）