Apache spark 有没有办法在AWS胶水上使用ApacheHudi？_Apache Spark_Amazon S3_Aws Glue_Apache Hudi

Apache spark 有没有办法在AWS胶水上使用ApacheHudi？

apache-spark amazon-s3

Apache spark 有没有办法在AWS胶水上使用ApacheHudi？,apache-spark,amazon-s3,aws-glue,apache-hudi,Apache Spark,Amazon S3,Aws Glue,Apache Hudi,尝试探索ApachHudi使用S3作为源进行增量加载，然后通过AWS glue job将输出保存到S3中的不同位置有什么博客/文章可以作为起点吗？所以我不能完全确定您的用例，但这可能会对您有所帮助这是关于如何通过胶水自定义连接器连接到Hudi的问题。还有另一种可能的方法（根据Robert的回答），将自定义罐子包括到胶水作业中。然后，这些将被加载到您的粘合作业中，并像在任何其他hadoop/spark环境中一样可用实现此方法所需的步骤如下（至少我的pyspark工作需要这些步骤，如果您发现一

尝试探索ApachHudi使用S3作为源进行增量加载，然后通过AWS glue job将输出保存到S3中的不同位置

有什么博客/文章可以作为起点吗？

所以我不能完全确定您的用例，但这可能会对您有所帮助

这是关于如何通过胶水自定义连接器连接到Hudi的问题。

还有另一种可能的方法（根据Robert的回答），将自定义罐子包括到胶水作业中。然后，这些将被加载到您的粘合作业中，并像在任何其他hadoop/spark环境中一样可用

实现此方法所需的步骤如下（至少我的pyspark工作需要这些步骤，如果您发现一些信息不太详尽或遇到一些问题，请纠正我，我将更新我的答案）：

注意1：下面是批量写入，没有对hudi流进行测试
注2：粘合作业类型：Spark，粘合版本：2.0，ETL语言：python

获取hudi所需的所有JAR，并将其放入S3：

hudi-spark-bundle_2.11
httpclient-4.5.9
spark-avro_2.11

创建粘合作业时（请参见注释2），请指定：

依赖jars路径=点1的jar的逗号分隔路径（例如s3://your bucket/some\u prefix/hudi spark bundle…jar，s3://your bucket/some\u prefix/http…jar，s3://your bucket/some\u prefix/spark avro…jar）

根据中提供的文档创建脚本，尽情享受吧最后一点：确保为粘合作业分配适当的权限