将数据帧保存为csv文件(在DataRicks中处理)并将其上载到azure datalake blob存储

将数据帧保存为csv文件(在DataRicks中处理)并将其上载到azure datalake blob存储,azure,pyspark,databricks,azure-data-lake,Azure,Pyspark,Databricks,Azure Data Lake,我在azure datalake存储中存储了一个csv文件,我通过在我的DataRicks集群中装载datalake帐户将其导入DataRicks中,在进行预处理后,我希望将csv存储回同一datalakegen2(blobstorage)中帐户。非常感谢您在这个问题上提供的任何线索和帮助。谢谢。只需在相同的装入位置写入一个文件即可。请参见此处的示例: df.write.json(“abfss://@.dfs.core.windows.net/iot_devices.json”) 只需将其直接保

我在azure datalake存储中存储了一个csv文件,我通过在我的DataRicks集群中装载datalake帐户将其导入DataRicks中,在进行预处理后,我希望将csv存储回同一datalakegen2(blobstorage)中帐户。非常感谢您在这个问题上提供的任何线索和帮助。谢谢。

只需在相同的装入位置写入一个文件即可。请参见此处的示例:

df.write.json(“abfss://@.dfs.core.windows.net/iot_devices.json”)

只需将其直接保存到Blob存储中即可

df.write.
    format("com.databricks.spark.csv").
    option("header", "true").
    save("myfile.csv")

将文件保存在本地,然后将其推送到Blob中是没有意义的。

非常感谢,明白了,但它将csv文件保存为随机名称,是否有任何帮助将其保存为我自己定义的文件名。谢谢帮助!我们无法在写入hdfs时使用特定名称写入文件,请使用coalesce(1)生成单个文件,一旦使用命令hadoop fs-mv*生成文件,请重命名该文件
df.write.
    format("com.databricks.spark.csv").
    option("header", "true").
    save("myfile.csv")