Hive AWS-EMR中ETL的自动配置单元或级联

Hive AWS-EMR中ETL的自动配置单元或级联,hive,etl,emr,cascading,Hive,Etl,Emr,Cascading,我在AWS S3中有一个大型数据集。此数据通常是事务性数据(如调用记录)。我运行了一系列配置单元查询,以连续运行聚合和筛选条件,以生成两个最终压缩文件(最多有数百万行的CSV)。 到目前为止,对于Hive,我必须手动运行一个又一个查询(因为有时某些查询确实会由于AWS或其他方面的问题而失败)。 到目前为止,我已经使用手动方式处理了2个月的数据。 但是在接下来的几个月里,我希望能够编写一些工作流来逐个执行查询,如果查询失败,它将再次运行查询这不能通过在bash.sh文件中运行配置单元查询来完成(至

我在AWS S3中有一个大型数据集。此数据通常是事务性数据(如调用记录)。我运行了一系列配置单元查询,以连续运行聚合和筛选条件,以生成两个最终压缩文件(最多有数百万行的CSV)。 到目前为止,对于Hive,我必须手动运行一个又一个查询(因为有时某些查询确实会由于AWS或其他方面的问题而失败)。
到目前为止,我已经使用手动方式处理了2个月的数据。

但是在接下来的几个月里,我希望能够编写一些工作流来逐个执行查询,如果查询失败,它将再次运行查询这不能通过在bash.sh文件中运行配置单元查询来完成(至少是我当前的方法)。

hive -f s3://mybucket/createAndPopulateTableA.sql
hive -f s3://mybucket/createAndPopulateTableB.sql ( this might need Table A to be populated before executing).
或者,我一直在研究级联,想知道它是否可能是我问题的解决方案,并且它确实有语言,这可能适合这种情况。但不确定它如何融入AWS生态系统

最好的解决方案是,如果有一些配置单元查询工作流过程,它将是最优的。在hadoop生态系统中还有哪些其他选择

编辑: 我现在看着Oozie,尽管面对着一个sh!t电子病历中设置的大量问题:(

您可以使用:

AWS数据管道帮助您轻松创建容错、可重复和高可用性的复杂数据处理工作负载


您可以将其配置为在脚本失败时执行或重试某些操作,并且它支持配置单元脚本:

Hi,这也是我考虑的选项之一。但是,我所在的地区目前不支持数据管道服务。