Hive AWS-EMR中ETL的自动配置单元或级联_Hive_Etl_Emr_Cascading

Hive AWS-EMR中ETL的自动配置单元或级联

hive

Hive AWS-EMR中ETL的自动配置单元或级联,hive,etl,emr,cascading,Hive,Etl,Emr,Cascading,我在AWS S3中有一个大型数据集。此数据通常是事务性数据（如调用记录）。我运行了一系列配置单元查询，以连续运行聚合和筛选条件，以生成两个最终压缩文件（最多有数百万行的CSV）。到目前为止，对于Hive，我必须手动运行一个又一个查询（因为有时某些查询确实会由于AWS或其他方面的问题而失败）。到目前为止，我已经使用手动方式处理了2个月的数据。但是在接下来的几个月里，我希望能够编写一些工作流来逐个执行查询，如果查询失败，它将再次运行查询这不能通过在bash.sh文件中运行配置单元查询来完成（至

我在AWS S3中有一个大型数据集。此数据通常是事务性数据（如调用记录）。我运行了一系列配置单元查询，以连续运行聚合和筛选条件，以生成两个最终压缩文件（最多有数百万行的CSV）。到目前为止，对于Hive，我必须手动运行一个又一个查询（因为有时某些查询确实会由于AWS或其他方面的问题而失败）。
到目前为止，我已经使用手动方式处理了2个月的数据。

但是在接下来的几个月里，我希望能够编写一些工作流来逐个执行查询，如果查询失败，它将再次运行查询这不能通过在bash.sh文件中运行配置单元查询来完成（至少是我当前的方法）。

hive -f s3://mybucket/createAndPopulateTableA.sql
hive -f s3://mybucket/createAndPopulateTableB.sql ( this might need Table A to be populated before executing).

或者，我一直在研究级联，想知道它是否可能是我问题的解决方案，并且它确实有语言，这可能适合这种情况。但不确定它如何融入AWS生态系统

最好的解决方案是，如果有一些配置单元查询工作流过程，它将是最优的。在hadoop生态系统中还有哪些其他选择

编辑：我现在看着Oozie，尽管面对着一个sh！t电子病历中设置的大量问题：（

您可以使用：

AWS数据管道帮助您轻松创建容错、可重复和高可用性的复杂数据处理工作负载

您可以将其配置为在脚本失败时执行或重试某些操作，并且它支持配置单元脚本：

Hi，这也是我考虑的选项之一。但是，我所在的地区目前不支持数据管道服务。