Python 带DBUtils的Pyspark_Python_Azure_Apache Spark_Pyspark_Databricks

Python 带DBUtils的Pyspark

python azure apache-spark pyspark

Python 带DBUtils的Pyspark,python,azure,apache-spark,pyspark,databricks,Python,Azure,Apache Spark,Pyspark,Databricks,我试图使用jupyter笔记本python脚本（在Docker上运行）中的DBUtils和Pyspark访问Azure Data Lake Blob。但是，我似乎无法识别dbutils（即namererror:name'dbutils'未定义）。我已经尝试显式导入DBUtils，并且在阅读时不导入它： “需要记住的一点是，不要在Python脚本中运行import-dbutils。此命令成功，但会删除所有命令，因此没有任何效果。默认情况下，它是导入的。” 我也尝试过发布的解决方案，但它仍然抛出“K

我试图使用jupyter笔记本python脚本（在Docker上运行）中的DBUtils和Pyspark访问Azure Data Lake Blob。但是，我似乎无法识别dbutils（即namererror:name'dbutils'未定义）。我已经尝试显式导入DBUtils，并且在阅读时不导入它：

“需要记住的一点是，不要在Python脚本中运行import-dbutils。此命令成功，但会删除所有命令，因此没有任何效果。默认情况下，它是导入的。”

我也尝试过发布的解决方案，但它仍然抛出“KeyError:'dbutils'”

spark.conf.set（'fs.azure.account.key..blob.core.windows.net'，）
spark.conf.set（“fs.azure.createRemoteFileSystemDuringInitialization”，“true”）
dbutils.fs.ls（“abfss://@.dfs.core.windows.net/”）
spark.conf.set（“fs.azure.createRemoteFileSystemDuringInitialization”，“false”）

有人对此有解决方案吗？

dbutil

仅在DataRicks中受支持。要从非databricks spark环境（如Azure上的VM或HDI spark）访问blob存储，您需要修改

core site.xml

文件。下面是一个独立spark环境的快速示例

dbutil

仅在databricks中受支持。要从非databricks spark环境（如Azure上的VM或HDI spark）访问blob存储，您需要修改

core site.xml

文件。下面是一个独立spark环境的快速示例

有没有一种方法可以在没有dbutils的情况下将文件复制到dbfs？dbutils.fs.cp（“文件：/source”，“dbfs:/destination”）有没有一种方法可以在没有dbutils的情况下将文件复制到dbfs？dbutils.fs.cp（“文件：/source”，“dbfs:/destination”）

spark.conf.set('fs.azure.account.key.<storage account>.blob.core.windows.net', <storage account access key>)
spark.conf.set("fs.azure.createRemoteFileSystemDuringInitialization", "true")
dbutils.fs.ls("abfss://<container>@<storage account>.dfs.core.windows.net/")
spark.conf.set("fs.azure.createRemoteFileSystemDuringInitialization", "false")