Python从DataLake读取csv

Python从DataLake读取csv,python,pandas,databricks,azure-databricks,Python,Pandas,Databricks,Azure Databricks,我试图读取存储在Azure Data Lake Gen 2上的csv文件,Python在DataRicks中运行。 这里有两行代码,第一行有效,第二行失败。 我真的必须安装ADL才能让熊猫访问它吗 data1 = spark.read.option("header",False).format("csv").load("abfss://oper-iot-uploads@xxx.dfs.core.windows.net/belgium/dessel

我试图读取存储在Azure Data Lake Gen 2上的csv文件,Python在DataRicks中运行。 这里有两行代码,第一行有效,第二行失败。 我真的必须安装ADL才能让熊猫访问它吗

data1 = spark.read.option("header",False).format("csv").load("abfss://oper-iot-uploads@xxx.dfs.core.windows.net/belgium/dessel/c3/kiln/temp/Auto202012101237.TXT")
data2 = pd.read_csv("abfss://oper-iot-uploads@xxx.dfs.core.windows.net/belgium/dessel/c3/kiln/temp/Auto202012101237.TXT")

有什么建议吗?

熊猫不知道云存储,只处理本地文件。在Databricks上,您应该能够在本地复制文件,以便可以使用Pandas打开它。这可以通过
%fs cp来完成abfss://.... file:///your-location
或使用
dbutils.fs.cp(“abfss://....", "file:///your-location”
(请参阅)


另一种可能性是使用Spark上提供与Pandas兼容的API来代替Pandas。除了能够访问云中的数据外,您还可以以分布式方式运行代码。

我可以通过将云存储安装为驱动器来解决这个问题。现在可以正常工作。

Thx但是对于一些“简单”的东西来说,额外的库是一种过分的杀伤力。安装ADL帮助了我。KR,哈利