Sql 使用QUERY和WHERE子句验证Sqoop

Sql 使用QUERY和WHERE子句验证Sqoop,sql,hadoop,hdfs,oozie,Sql,Hadoop,Hdfs,Oozie,我正在合理化一个数据导入过程,该过程从现有数据库中获取数据,并在HDFS方案中对其进行分区。默认情况下,该作业被分为四个映射进程,现在我通过ApacheOozie将该作业配置为每天执行一次映射 由于Oozie是面向DAG的,是否有能力在Oozie工作流中创建validationStep,以便: 对新导入的数据运行配置单元查询以返回行数 运行SQL查询以返回原始数据源中的行数 比较这两个值 如果不匹配,则返回FAIL并终止作业;如果匹配,则返回TRUE和OK 我知道sqoop中有一个验证过程,

我正在合理化一个数据导入过程,该过程从现有数据库中获取数据,并在HDFS方案中对其进行分区。默认情况下,该作业被分为四个映射进程,现在我通过ApacheOozie将该作业配置为每天执行一次映射

由于Oozie是面向DAG的,是否有能力在Oozie工作流中创建validationStep,以便:

  • 对新导入的数据运行配置单元查询以返回行数
  • 运行SQL查询以返回原始数据源中的行数
  • 比较这两个值
  • 如果不匹配,则返回FAIL并终止作业;如果匹配,则返回TRUE和OK
我知道sqoop中有一个验证过程,但我的理解是,由于我不是针对单个表运行这个过程,所以这是不适用的(我的每个sqoop导入都是按特定日期进行分区的)


这可能吗?

有什么想法吗?我正在吐出一个计数器,返回写入的记录数,但需要一种方法来验证这一点。还有一个sqoop命令也可以执行此操作,但不确定它返回的值是否严格为整数值。