Sql 使用QUERY和WHERE子句验证Sqoop
我正在合理化一个数据导入过程,该过程从现有数据库中获取数据,并在HDFS方案中对其进行分区。默认情况下,该作业被分为四个映射进程,现在我通过ApacheOozie将该作业配置为每天执行一次映射 由于Oozie是面向DAG的,是否有能力在Oozie工作流中创建validationStep,以便:Sql 使用QUERY和WHERE子句验证Sqoop,sql,hadoop,hdfs,oozie,Sql,Hadoop,Hdfs,Oozie,我正在合理化一个数据导入过程,该过程从现有数据库中获取数据,并在HDFS方案中对其进行分区。默认情况下,该作业被分为四个映射进程,现在我通过ApacheOozie将该作业配置为每天执行一次映射 由于Oozie是面向DAG的,是否有能力在Oozie工作流中创建validationStep,以便: 对新导入的数据运行配置单元查询以返回行数 运行SQL查询以返回原始数据源中的行数 比较这两个值 如果不匹配,则返回FAIL并终止作业;如果匹配,则返回TRUE和OK 我知道sqoop中有一个验证过程,
- 对新导入的数据运行配置单元查询以返回行数
- 运行SQL查询以返回原始数据源中的行数
- 比较这两个值
- 如果不匹配,则返回FAIL并终止作业;如果匹配,则返回TRUE和OK
这可能吗?有什么想法吗?我正在吐出一个计数器,返回写入的记录数,但需要一种方法来验证这一点。还有一个sqoop命令也可以执行此操作,但不确定它返回的值是否严格为整数值。