Apache spark 使用自定义格式的apachehudi分区_Apache Spark_Apache Hudi

Apache spark 使用自定义格式的apachehudi分区

apache-spark

Apache spark 使用自定义格式的apachehudi分区,apache-spark,apache-hudi,Apache Spark,Apache Hudi,我目前正在使用spark（scala）在ApacheHudi上进行POC 在使用分区保存数据帧时，我遇到了一个问题 Hudi使用path/valueOfPartitionCol1/valueOfPartitionCol2.. 使用属性分区路径\字段\选项\键但我的要求是path/COL1=value/COL2=value….类似于spark使用partitionBy（）对数据进行分区的方式任何使用Hudi尝试过自定义分区的人都可以帮助我吗？这有帮助吗？将配置配置单元样式分区选项键设置为tr

我目前正在使用spark（scala）在Apache

Hudi

上进行POC

在使用分区保存数据帧时，我遇到了一个问题

Hudi使用

path/valueOfPartitionCol1/valueOfPartitionCol2..

使用属性

分区路径\字段\选项\键

但我的要求是

path/COL1=value/COL2=value….

类似于spark使用

partitionBy（）对数据进行分区的方式
任何使用Hudi
尝试过自定义分区的人都可以帮助我吗？这有帮助吗？
将配置配置单元样式分区选项键设置为true，如下所示：
  batchDF.write.format("org.apache.hudi")

          .option(HIVE_STYLE_PARTITIONING_OPT_KEY, true)

          .mode(SaveMode.Append)
          .save(bathPath)

您可以创建KeyGenerator
类的自定义实现，实现覆盖def getKey（记录：genericord）：HoodieKey
类。在这个方法中，您得到一个genericord
实例，并返回一个HoodieKey（）
类，该类允许您定义用于生成路径分区的自定义逻辑