Python 带DBUtils的Pyspark
我试图使用jupyter笔记本python脚本(在Docker上运行)中的DBUtils和Pyspark访问Azure Data Lake Blob。但是,我似乎无法识别dbutils(即namererror:name'dbutils'未定义)。我已经尝试显式导入DBUtils,并且在阅读时不导入它: “需要记住的一点是,不要在Python脚本中运行import-dbutils。此命令成功,但会删除所有命令,因此没有任何效果。默认情况下,它是导入的。” 我也尝试过发布的解决方案,但它仍然抛出“KeyError:'dbutils'”Python 带DBUtils的Pyspark,python,azure,apache-spark,pyspark,databricks,Python,Azure,Apache Spark,Pyspark,Databricks,我试图使用jupyter笔记本python脚本(在Docker上运行)中的DBUtils和Pyspark访问Azure Data Lake Blob。但是,我似乎无法识别dbutils(即namererror:name'dbutils'未定义)。我已经尝试显式导入DBUtils,并且在阅读时不导入它: “需要记住的一点是,不要在Python脚本中运行import-dbutils。此命令成功,但会删除所有命令,因此没有任何效果。默认情况下,它是导入的。” 我也尝试过发布的解决方案,但它仍然抛出“K
spark.conf.set('fs.azure.account.key..blob.core.windows.net',)
spark.conf.set(“fs.azure.createRemoteFileSystemDuringInitialization”,“true”)
dbutils.fs.ls(“abfss://@.dfs.core.windows.net/”)
spark.conf.set(“fs.azure.createRemoteFileSystemDuringInitialization”,“false”)
有人对此有解决方案吗?
dbutil
仅在DataRicks中受支持。要从非databricks spark环境(如Azure上的VM或HDI spark)访问blob存储,您需要修改core site.xml
文件。下面是一个独立spark环境的快速示例 dbutil
仅在databricks中受支持。要从非databricks spark环境(如Azure上的VM或HDI spark)访问blob存储,您需要修改core site.xml
文件。下面是一个独立spark环境的快速示例 有没有一种方法可以在没有dbutils的情况下将文件复制到dbfs?dbutils.fs.cp(“文件:/source”,“dbfs:/destination”)有没有一种方法可以在没有dbutils的情况下将文件复制到dbfs?dbutils.fs.cp(“文件:/source”,“dbfs:/destination”)
spark.conf.set('fs.azure.account.key.<storage account>.blob.core.windows.net', <storage account access key>)
spark.conf.set("fs.azure.createRemoteFileSystemDuringInitialization", "true")
dbutils.fs.ls("abfss://<container>@<storage account>.dfs.core.windows.net/")
spark.conf.set("fs.azure.createRemoteFileSystemDuringInitialization", "false")