Apache spark Azure Databricks-无法从笔记本读取简单blob存储文件

Apache spark Azure Databricks-无法从笔记本读取简单blob存储文件,apache-spark,databricks,azure-databricks,Apache Spark,Databricks,Azure Databricks,我已经用databricks运行时版本5.1(包括ApacheSpark 2.4.0、Scala 2.11)和Python 3建立了一个集群。我还将hadoop azure库(hadoop-azure-3.2.0)安装到集群中 我正在尝试读取存储在blob存储帐户中的blob,它只是一个文本文件,包含一些数字数据,例如由空格分隔。我使用databricks生成的模板来读取blob数据 spark.conf.set( "fs.azure.account.key."+storag

我已经用databricks运行时版本5.1(包括ApacheSpark 2.4.0、Scala 2.11)和Python 3建立了一个集群。我还将hadoop azure库(hadoop-azure-3.2.0)安装到集群中

我正在尝试读取存储在blob存储帐户中的blob,它只是一个文本文件,包含一些数字数据,例如由空格分隔。我使用databricks生成的模板来读取blob数据

    spark.conf.set(
      "fs.azure.account.key."+storage_account_name+".blob.core.windows.net",
      storage_account_access_key)
    df = spark.read.format(file_type).option("inferSchema", "true").load(file_location)
其中file_位置是我的blob文件()

我得到以下错误:

没有名为https的文件系统

我尝试使用sc.textFile(file_location)读取rdd,并得到相同的错误


您的文件位置应采用以下格式:

"wasbs://<your-container-name>@<your-storage-account-name>.blob.core.windows.net/<your-directory-name>"
“wasbs://@.blob.core.windows.net/”

请参阅:

您的文件位置应采用以下格式:

"wasbs://<your-container-name>@<your-storage-account-name>.blob.core.windows.net/<your-directory-name>"
“wasbs://@.blob.core.windows.net/”

请参阅:

您需要装载具有外部位置的blob,才能通过Azure Databricks访问它


参考资料:

您需要装载具有外部位置的blob,才能通过Azure DataRicks访问它


参考资料:

这三行代码适用于我:

spark.conf.set("fs.azure.account.key.STORAGE_ACCOUNT.blob.core.windows.net","BIG_KEY")

df = spark.read.csv("wasbs://CONTAINER@STORAGE_ACCOUNT.blob.core.windows.net/")

df.select('*').show()

请注意,第2行以.net/结尾,因为我没有子文件夹。

这三行代码对我很有用:

spark.conf.set("fs.azure.account.key.STORAGE_ACCOUNT.blob.core.windows.net","BIG_KEY")

df = spark.read.csv("wasbs://CONTAINER@STORAGE_ACCOUNT.blob.core.windows.net/")

df.select('*').show()
请注意,第2行以.net/结尾,因为我没有子文件夹