Hadoop 如何使用oozie创建从外部数据源到配置单元的健壮数据管道?

Hadoop 如何使用oozie创建从外部数据源到配置单元的健壮数据管道?,hadoop,hive,oozie,Hadoop,Hive,Oozie,这是我的要求- 使用sqoop将增量数据从RDBMS获取到配置单元外部表(t_incr)中 将增量(t_incr)数据和基表(t_base)数据连接起来,然后将其重复数据消除并作为表(t_merged)存储在配置单元中 将基本表的备份作为(t_base_bkup) 如果t_merged的行数大于或等于t_base_bkup,则只移动到下一步 将基表(t_-base)数据替换为合并表(t_-merged)数据 我可以使用oozie创建此工作流,无需执行步骤4 有人能建议如何在oozie工作流中加入

这是我的要求-

  • 使用sqoop将增量数据从RDBMS获取到配置单元外部表(t_incr)中
  • 将增量(t_incr)数据和基表(t_base)数据连接起来,然后将其重复数据消除并作为表(t_merged)存储在配置单元中
  • 将基本表的备份作为(t_base_bkup)
  • 如果t_merged的行数大于或等于t_base_bkup,则只移动到下一步
  • 将基表(t_-base)数据替换为合并表(t_-merged)数据
  • 我可以使用oozie创建此工作流,无需执行步骤4

    有人能建议如何在oozie工作流中加入步骤4吗

    注意:第4步只是为了确保在第5步中不会丢失任何数据

    Oozie版本:4.2 配置单元版本:1.2