Pyspark 在Azrue Data Lake容器中合并文件

Pyspark 在Azrue Data Lake容器中合并文件,pyspark,azure-data-factory-2,azure-databricks,Pyspark,Azure Data Factory 2,Azure Databricks,考虑以下场景: 我希望我的数据流如下 导入容器-->databricks(转换)-->导出容器 完成转换过程后的当前情况 容器: ---import --folder --mydata.csv ---export --folder --part-1-transformed-mydata.csv --part-2-transformed-mydata.csv --part-3-transformed-mydata.cs

考虑以下场景:

我希望我的数据流如下 导入容器-->databricks(转换)-->导出容器

完成转换过程后的当前情况 容器:

---import
    --folder
        --mydata.csv
---export
    --folder
        --part-1-transformed-mydata.csv
        --part-2-transformed-mydata.csv
        --part-3-transformed-mydata.csv
        --initial.txt
        --success.txt
        --finish.txt
---import
    --folder
        --mydata.csv
---export
    --folder
        --transformed-mydata.csv
我想要下面的结构:

---import
    --folder
        --mydata.csv
---export
    --folder
        --part-1-transformed-mydata.csv
        --part-2-transformed-mydata.csv
        --part-3-transformed-mydata.csv
        --initial.txt
        --success.txt
        --finish.txt
---import
    --folder
        --mydata.csv
---export
    --folder
        --transformed-mydata.csv

首选的方式是什么(考虑到数据的Gb数很少,您可能需要将数据重新分区到单个分区中(注意,这不利于使用分布式计算平台)

或者,在生成文件后,只需运行一个命令将它们全部合并到一个文件中,如果每个文件都有一个头,则可能会出现问题,您需要在逻辑中说明这一点

如果有意义的话,最好将导出文件夹视为“文件”。这并不能解决您的问题,但除非您出于某种原因需要生成单个文件,否则大多数消费者在读取目录中的数据时不会遇到问题