Pyspark 如何在Kedro中使用databricks delta lake格式?
我们正在我们的项目中使用。通常,可以定义如下数据集:Pyspark 如何在Kedro中使用databricks delta lake格式?,pyspark,databricks,kedro,Pyspark,Databricks,Kedro,我们正在我们的项目中使用。通常,可以定义如下数据集: client_table: type: spark.SparkDataSet filepath: ${base_path_spark}/${env}/client_table file_format: parquet save_args: mode: overwrite 现在我们在Databrick上运行,它们提供了许多功能,比如autoOptimizeShuffle。我们正在考虑利用它来处理15 TB以上的数据集
client_table:
type: spark.SparkDataSet
filepath: ${base_path_spark}/${env}/client_table
file_format: parquet
save_args:
mode: overwrite
现在我们在Databrick上运行,它们提供了许多功能,比如autoOptimizeShuffle
。我们正在考虑利用它来处理15 TB以上的数据集
但是,我不清楚如何将kedro与databricks delta lake解决方案结合使用,因为它对我们有效
client_table:
type: kedro.contrib.io.pyspark.SparkDataSet
filepath: ${base_path_spark}/${env}/client_table
file_format: "delta"
save_args:
mode: overwrite