Azure数据工厂拼花动态模式合并
我在ADLS Gen2中有多个拼花文件,拼花文件有不同的列/模式,但所有不同的模式都是相互兼容的。 当我在ADF中创建一个数据集时,它只检测到68列中的26列(每个拼花文件中都有26列)。 如果我使用pyspark读取文件,我可以使用以下行动态合并不同的模式Azure数据工厂拼花动态模式合并,azure,azure-data-factory,parquet,azure-data-factory-pipeline,Azure,Azure Data Factory,Parquet,Azure Data Factory Pipeline,我在ADLS Gen2中有多个拼花文件,拼花文件有不同的列/模式,但所有不同的模式都是相互兼容的。 当我在ADF中创建一个数据集时,它只检测到68列中的26列(每个拼花文件中都有26列)。 如果我使用pyspark读取文件,我可以使用以下行动态合并不同的模式 parquetFile=spark.read.option(“mergeSchema”、“true”).parquet(“./data/*/*/*/*/*/”) 有没有办法在azure data factory中使用类似的设置 谢谢大家,数
parquetFile=spark.read.option(“mergeSchema”、“true”).parquet(“./data/*/*/*/*/*/”)
有没有办法在azure data factory中使用类似的设置
谢谢大家,数据工厂将使用68列的文件架构。但是数据工厂不会创建26列的架构。我有多个文件,一个文件可以包含20列,另一个35列,第三个40列。这些列可能会有很大的不同。总之,在所有数据集中,我有唯一的68列。数据工厂将使用68列的文件架构。但数据工厂不会创建26列的架构。我有多个文件,一个文件可以包含20列,另一个35列,第三个40列。这些列可能会有很大的不同。在所有的数据集中,我有唯一的68列。