Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/.net/21.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
如何使用Spark/Scala从Azure blob获取文件列表?_Azure_Apache Spark_Spark Streaming_Spark Dataframe_Azure Storage Blobs - Fatal编程技术网

如何使用Spark/Scala从Azure blob获取文件列表?

如何使用Spark/Scala从Azure blob获取文件列表?,azure,apache-spark,spark-streaming,spark-dataframe,azure-storage-blobs,Azure,Apache Spark,Spark Streaming,Spark Dataframe,Azure Storage Blobs,如何从Spark和Scala中的Azure blob存储中获取文件列表 我不知道该怎么做 我不知道你使用的Spark是在Azure上还是在本地。因此,它们是两种情况,但相似 对于在本地运行的Spark,有一个官方介绍如何从Spark访问Azure Blob存储。关键是您需要在core site.xml文件中将Azure存储帐户配置为HDFS兼容存储,并将两个JARhadoop Azure&Azure存储添加到您的类路径中,以便通过协议wasb[s]访问HDFS。有关HDInsight的更多详细信

如何从Spark和Scala中的Azure blob存储中获取文件列表


我不知道该怎么做

我不知道你使用的Spark是在Azure上还是在本地。因此,它们是两种情况,但相似

  • 对于在本地运行的Spark,有一个官方介绍如何从Spark访问Azure Blob存储。关键是您需要在
    core site.xml
    文件中将Azure存储帐户配置为HDFS兼容存储,并将两个JAR
    hadoop Azure
    &
    Azure存储
    添加到您的类路径中,以便通过协议
    wasb[s]
    访问HDFS。有关HDInsight的更多详细信息,请参阅“了解与wasb兼容的HDFS存储”的官方文件和“关于配置”

  • 对于在Azure上运行的Spark,区别在于仅使用
    wasb
    访问HDFS,其他准备工作由Azure在使用Spark创建HDInsight群集时完成

  • 列出文件的方法是或
    SparkContext


    希望有帮助。

    如果您使用的是databricks,请尝试以下方法

    dbutils.fs.ls(“blob\u存储位置”)