Hadoop Sqoop增量作业导入的记录数大于源中的记录数

Hadoop Sqoop增量作业导入的记录数大于源中的记录数,hadoop,sqoop,Hadoop,Sqoop,我已经创建了sqoop作业来从Netezza导入数据。它每天通过比较源中的时间戳列检查列来导入数据。我观察到,与Netezza中的源表相比,该作业每天导入更多的记录 这项工作似乎没有问题或错误。“incremental.last.value”也会在每次运行时正确更新 我怎样才能找出这份工作的毛病呢。我使用的是Sqoop版本:1.4.5.2.2.6.0-2800能否请您显示所使用的Sqoop作业声明。您是否在Sqoop作业中使用了任何按列拆分,如果是,请尝试使用其他按列拆分。更多的调查表明该作业工

我已经创建了sqoop作业来从Netezza导入数据。它每天通过比较源中的时间戳列检查列来导入数据。我观察到,与Netezza中的源表相比,该作业每天导入更多的记录

这项工作似乎没有问题或错误。“incremental.last.value”也会在每次运行时正确更新


我怎样才能找出这份工作的毛病呢。我使用的是Sqoop版本:1.4.5.2.2.6.0-2800

能否请您显示所使用的Sqoop作业声明。您是否在Sqoop作业中使用了任何按列拆分,如果是,请尝试使用其他按列拆分。

更多的调查表明该作业工作正常。问题在于验证方法。我试图验证Netezza和Hive中给定日期的行数。但是,检查列的日期值在Netezza中得到更新。这些更新不会以任何方式反映在配置单元上。因此,在Netezza端,一天的记录数不会保持不变

这个问题给我们提供了一个很好的学习机会,首先检查所考虑场景的所有条件。实现输出可能涉及许多因素,而不仅仅是编写代码的正确性