Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/powershell/13.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark 使用自定义格式的apachehudi分区_Apache Spark_Apache Hudi - Fatal编程技术网

Apache spark 使用自定义格式的apachehudi分区

Apache spark 使用自定义格式的apachehudi分区,apache-spark,apache-hudi,Apache Spark,Apache Hudi,我目前正在使用spark(scala)在ApacheHudi上进行POC 在使用分区保存数据帧时,我遇到了一个问题 Hudi使用path/valueOfPartitionCol1/valueOfPartitionCol2.. 使用属性分区路径\字段\选项\键 但我的要求是path/COL1=value/COL2=value….类似于spark使用partitionBy()对数据进行分区的方式 任何使用Hudi尝试过自定义分区的人都可以帮助我吗?这有帮助吗? 将配置配置单元样式分区选项键设置为tr

我目前正在使用spark(scala)在Apache
Hudi
上进行POC

在使用分区保存数据帧时,我遇到了一个问题

Hudi使用
path/valueOfPartitionCol1/valueOfPartitionCol2..
使用属性
分区路径\字段\选项\键

但我的要求是
path/COL1=value/COL2=value….
类似于spark使用
partitionBy()对数据进行分区的方式

任何使用
Hudi
尝试过自定义分区的人都可以帮助我吗?

这有帮助吗? 将配置配置单元样式分区选项键设置为true,如下所示:

  batchDF.write.format("org.apache.hudi")

          .option(HIVE_STYLE_PARTITIONING_OPT_KEY, true)

          .mode(SaveMode.Append)
          .save(bathPath)

您可以创建
KeyGenerator
类的自定义实现,实现
覆盖def getKey(记录:genericord):HoodieKey
类。在这个方法中,您得到一个
genericord
实例,并返回一个
HoodieKey()
类,该类允许您定义用于生成路径分区的自定义逻辑