Python从DataLake读取csv_Python_Pandas_Databricks_Azure Databricks

Python从DataLake读取csv

python pandas

Python从DataLake读取csv,python,pandas,databricks,azure-databricks,Python,Pandas,Databricks,Azure Databricks,我试图读取存储在Azure Data Lake Gen 2上的csv文件，Python在DataRicks中运行。这里有两行代码，第一行有效，第二行失败。我真的必须安装ADL才能让熊猫访问它吗 data1 = spark.read.option("header",False).format("csv").load("abfss://oper-iot-uploads@xxx.dfs.core.windows.net/belgium/dessel

我试图读取存储在Azure Data Lake Gen 2上的csv文件，Python在DataRicks中运行。这里有两行代码，第一行有效，第二行失败。我真的必须安装ADL才能让熊猫访问它吗

data1 = spark.read.option("header",False).format("csv").load("abfss://oper-iot-uploads@xxx.dfs.core.windows.net/belgium/dessel/c3/kiln/temp/Auto202012101237.TXT")
data2 = pd.read_csv("abfss://oper-iot-uploads@xxx.dfs.core.windows.net/belgium/dessel/c3/kiln/temp/Auto202012101237.TXT")

有什么建议吗？

熊猫不知道云存储，只处理本地文件。在Databricks上，您应该能够在本地复制文件，以便可以使用Pandas打开它。这可以通过

%fs cp来完成abfss://.... file:///your-location

或使用

dbutils.fs.cp（“abfss://....", "file:///your-location”

（请参阅）

另一种可能性是使用Spark上提供与Pandas兼容的API来代替Pandas。除了能够访问云中的数据外，您还可以以分布式方式运行代码。

我可以通过将云存储安装为驱动器来解决这个问题。现在可以正常工作。

Thx但是对于一些“简单”的东西来说，额外的库是一种过分的杀伤力。安装ADL帮助了我。KR，哈利