Apache spark 有没有办法在AWS胶水上使用ApacheHudi?
尝试探索ApachHudi使用S3作为源进行增量加载,然后通过AWS glue job将输出保存到S3中的不同位置Apache spark 有没有办法在AWS胶水上使用ApacheHudi?,apache-spark,amazon-s3,aws-glue,apache-hudi,Apache Spark,Amazon S3,Aws Glue,Apache Hudi,尝试探索ApachHudi使用S3作为源进行增量加载,然后通过AWS glue job将输出保存到S3中的不同位置 有什么博客/文章可以作为起点吗?所以我不能完全确定您的用例,但这可能会对您有所帮助 这是关于如何通过胶水自定义连接器连接到Hudi的问题。还有另一种可能的方法(根据Robert的回答),将自定义罐子包括到胶水作业中。然后,这些将被加载到您的粘合作业中,并像在任何其他hadoop/spark环境中一样可用 实现此方法所需的步骤如下(至少我的pyspark工作需要这些步骤,如果您发现一
有什么博客/文章可以作为起点吗?所以我不能完全确定您的用例,但这可能会对您有所帮助
这是关于如何通过胶水自定义连接器连接到Hudi的问题。还有另一种可能的方法(根据Robert的回答),将自定义罐子包括到胶水作业中。然后,这些将被加载到您的粘合作业中,并像在任何其他hadoop/spark环境中一样可用 实现此方法所需的步骤如下(至少我的pyspark工作需要这些步骤,如果您发现一些信息不太详尽或遇到一些问题,请纠正我,我将更新我的答案): 注意1:下面是批量写入,没有对hudi流进行测试
注2:粘合作业类型:Spark,粘合版本:2.0,ETL语言:python
- hudi-spark-bundle_2.11
- httpclient-4.5.9
- spark-avro_2.11
- 依赖jars路径=点1的jar的逗号分隔路径(例如s3://your bucket/some\u prefix/hudi spark bundle…jar,s3://your bucket/some\u prefix/http…jar,s3://your bucket/some\u prefix/spark avro…jar)