Pyspark 在Azrue Data Lake容器中合并文件_Pyspark_Azure Data Factory 2_Azure Databricks

Pyspark 在Azrue Data Lake容器中合并文件

pyspark

Pyspark 在Azrue Data Lake容器中合并文件,pyspark,azure-data-factory-2,azure-databricks,Pyspark,Azure Data Factory 2,Azure Databricks,考虑以下场景：我希望我的数据流如下导入容器-->databricks（转换）-->导出容器完成转换过程后的当前情况容器： ---import --folder --mydata.csv ---export --folder --part-1-transformed-mydata.csv --part-2-transformed-mydata.csv --part-3-transformed-mydata.cs

考虑以下场景：

我希望我的数据流如下导入容器-->databricks（转换）-->导出容器

完成转换过程后的当前情况容器：

---import
    --folder
        --mydata.csv
---export
    --folder
        --part-1-transformed-mydata.csv
        --part-2-transformed-mydata.csv
        --part-3-transformed-mydata.csv
        --initial.txt
        --success.txt
        --finish.txt

---import
    --folder
        --mydata.csv
---export
    --folder
        --transformed-mydata.csv

我想要下面的结构：

---import
    --folder
        --mydata.csv
---export
    --folder
        --part-1-transformed-mydata.csv
        --part-2-transformed-mydata.csv
        --part-3-transformed-mydata.csv
        --initial.txt
        --success.txt
        --finish.txt

---import
    --folder
        --mydata.csv
---export
    --folder
        --transformed-mydata.csv

首选的方式是什么（考虑到数据的Gb数很少，您可能需要将数据重新分区到单个分区中（注意，这不利于使用分布式计算平台）

或者，在生成文件后，只需运行一个命令将它们全部合并到一个文件中，如果每个文件都有一个头，则可能会出现问题，您需要在逻辑中说明这一点

如果有意义的话，最好将导出文件夹视为“文件”。这并不能解决您的问题，但除非您出于某种原因需要生成单个文件，否则大多数消费者在读取目录中的数据时不会遇到问题