Apache spark 使用自定义格式的apachehudi分区
我目前正在使用spark(scala)在ApacheApache spark 使用自定义格式的apachehudi分区,apache-spark,apache-hudi,Apache Spark,Apache Hudi,我目前正在使用spark(scala)在ApacheHudi上进行POC 在使用分区保存数据帧时,我遇到了一个问题 Hudi使用path/valueOfPartitionCol1/valueOfPartitionCol2.. 使用属性分区路径\字段\选项\键 但我的要求是path/COL1=value/COL2=value….类似于spark使用partitionBy()对数据进行分区的方式 任何使用Hudi尝试过自定义分区的人都可以帮助我吗?这有帮助吗? 将配置配置单元样式分区选项键设置为tr
Hudi
上进行POC
在使用分区保存数据帧时,我遇到了一个问题
Hudi使用path/valueOfPartitionCol1/valueOfPartitionCol2..
使用属性分区路径\字段\选项\键
但我的要求是path/COL1=value/COL2=value….
类似于spark使用partitionBy()对数据进行分区的方式
任何使用Hudi
尝试过自定义分区的人都可以帮助我吗?这有帮助吗?
将配置配置单元样式分区选项键设置为true,如下所示:
batchDF.write.format("org.apache.hudi")
.option(HIVE_STYLE_PARTITIONING_OPT_KEY, true)
.mode(SaveMode.Append)
.save(bathPath)
您可以创建KeyGenerator
类的自定义实现,实现覆盖def getKey(记录:genericord):HoodieKey
类。在这个方法中,您得到一个genericord
实例,并返回一个HoodieKey()
类,该类允许您定义用于生成路径分区的自定义逻辑