Pyspark 如何在Kedro中使用databricks delta lake格式？_Pyspark_Databricks_Kedro

Pyspark 如何在Kedro中使用databricks delta lake格式？

pyspark

Pyspark 如何在Kedro中使用databricks delta lake格式？,pyspark,databricks,kedro,Pyspark,Databricks,Kedro,我们正在我们的项目中使用。通常，可以定义如下数据集： client_table: type: spark.SparkDataSet filepath: ${base_path_spark}/${env}/client_table file_format: parquet save_args: mode: overwrite 现在我们在Databrick上运行，它们提供了许多功能，比如autoOptimizeShuffle。我们正在考虑利用它来处理15 TB以上的数据集

我们正在我们的项目中使用。通常，可以定义如下数据集：

client_table:
  type: spark.SparkDataSet
  filepath: ${base_path_spark}/${env}/client_table
  file_format: parquet
  save_args:
    mode: overwrite

现在我们在Databrick上运行，它们提供了许多功能，比如

autoOptimizeShuffle

。我们正在考虑利用它来处理15 TB以上的数据集

但是，我不清楚如何将kedro与databricks delta lake解决方案结合使用，因为它对我们有效

    client_table:
      type: kedro.contrib.io.pyspark.SparkDataSet
      filepath: ${base_path_spark}/${env}/client_table
      file_format: "delta"
      save_args:
        mode: overwrite