Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark 有没有办法在AWS胶水上使用ApacheHudi?_Apache Spark_Amazon S3_Aws Glue_Apache Hudi - Fatal编程技术网

Apache spark 有没有办法在AWS胶水上使用ApacheHudi?

Apache spark 有没有办法在AWS胶水上使用ApacheHudi?,apache-spark,amazon-s3,aws-glue,apache-hudi,Apache Spark,Amazon S3,Aws Glue,Apache Hudi,尝试探索ApachHudi使用S3作为源进行增量加载,然后通过AWS glue job将输出保存到S3中的不同位置 有什么博客/文章可以作为起点吗?所以我不能完全确定您的用例,但这可能会对您有所帮助 这是关于如何通过胶水自定义连接器连接到Hudi的问题。还有另一种可能的方法(根据Robert的回答),将自定义罐子包括到胶水作业中。然后,这些将被加载到您的粘合作业中,并像在任何其他hadoop/spark环境中一样可用 实现此方法所需的步骤如下(至少我的pyspark工作需要这些步骤,如果您发现一

尝试探索ApachHudi使用S3作为源进行增量加载,然后通过AWS glue job将输出保存到S3中的不同位置


有什么博客/文章可以作为起点吗?

所以我不能完全确定您的用例,但这可能会对您有所帮助


这是关于如何通过胶水自定义连接器连接到Hudi的问题。

还有另一种可能的方法(根据Robert的回答),将自定义罐子包括到胶水作业中。然后,这些将被加载到您的粘合作业中,并像在任何其他hadoop/spark环境中一样可用

实现此方法所需的步骤如下(至少我的pyspark工作需要这些步骤,如果您发现一些信息不太详尽或遇到一些问题,请纠正我,我将更新我的答案):

注意1:下面是批量写入,没有对hudi流进行测试
注2:粘合作业类型:Spark,粘合版本:2.0,ETL语言:python

  • 获取hudi所需的所有JAR,并将其放入S3:
    • hudi-spark-bundle_2.11
    • httpclient-4.5.9
    • spark-avro_2.11
  • 创建粘合作业时(请参见注释2),请指定:
    • 依赖jars路径=点1的jar的逗号分隔路径(例如s3://your bucket/some\u prefix/hudi spark bundle…jar,s3://your bucket/some\u prefix/http…jar,s3://your bucket/some\u prefix/spark avro…jar)
  • 根据中提供的文档创建脚本,尽情享受吧 最后一点: 确保为粘合作业分配适当的权限