Pyspark 如何在Kedro中使用databricks delta lake格式?

Pyspark 如何在Kedro中使用databricks delta lake格式?,pyspark,databricks,kedro,Pyspark,Databricks,Kedro,我们正在我们的项目中使用。通常,可以定义如下数据集: client_table: type: spark.SparkDataSet filepath: ${base_path_spark}/${env}/client_table file_format: parquet save_args: mode: overwrite 现在我们在Databrick上运行,它们提供了许多功能,比如autoOptimizeShuffle。我们正在考虑利用它来处理15 TB以上的数据集

我们正在我们的项目中使用。通常,可以定义如下数据集:

client_table:
  type: spark.SparkDataSet
  filepath: ${base_path_spark}/${env}/client_table
  file_format: parquet
  save_args:
    mode: overwrite
现在我们在Databrick上运行,它们提供了许多功能,比如
autoOptimizeShuffle
。我们正在考虑利用它来处理15 TB以上的数据集

但是,我不清楚如何将kedro与databricks delta lake解决方案结合使用,因为它对我们有效

    client_table:
      type: kedro.contrib.io.pyspark.SparkDataSet
      filepath: ${base_path_spark}/${env}/client_table
      file_format: "delta"
      save_args:
        mode: overwrite