Python Azure Databricks-将拼花文件写入策展区域_Python_Parquet_Azure Data Lake_Azure Databricks_Azure Data Lake Gen2

Python Azure Databricks-将拼花文件写入策展区域

python

Python Azure Databricks-将拼花文件写入策展区域,python,parquet,azure-data-lake,azure-databricks,azure-data-lake-gen2,Python,Parquet,Azure Data Lake,Azure Databricks,Azure Data Lake Gen2,在将拼花地板文件写回DataLake Gen2时，正在创建其他文件例如： %python rawfile = "wasbs://xxxx@dxxxx.blob.core.windows.net/xxxx/2019-09-30/account.parquet" curatedfile = "wasbs://xxxx@xxxx.blob.core.windows.net/xxxx-Curated/2019-09-30/account.parquet" dfraw = spark.read.parq

在将拼花地板文件写回DataLake Gen2时，正在创建其他文件

例如：

%python
rawfile = "wasbs://xxxx@dxxxx.blob.core.windows.net/xxxx/2019-09-30/account.parquet"
curatedfile = "wasbs://xxxx@xxxx.blob.core.windows.net/xxxx-Curated/2019-09-30/account.parquet"
dfraw = spark.read.parquet(rawfile)
dfraw.write.parquet(curatedfile, mode = "overwrite")
display(dfraw)

提供的文件名（account.parquet）被记录到创建的文件夹中，而不是使用该名称创建文件

如何忽略这些附加文件并使用提供的名称写入文件。

当用户在作业中写入文件时，DBIO将为您执行以下操作

使用唯一事务id写入的标记文件
将文件直接写入其最终位置
当作业提交时，将事务标记为已提交

不可能直接在Spark的保存中更改文件名

Spark使用Hadoop文件格式，这需要对数据进行分区—这就是为什么要使用部件文件。在处理之后，您可以像在线程中一样轻松地更改文件名

您可以参考类似的线程，它解决了类似的问题

希望这有帮助