如何验证从外部数据库(oracle)到hdfs的数据传输

如何验证从外部数据库(oracle)到hdfs的数据传输,oracle,hadoop,hdfs,sqoop,Oracle,Hadoop,Hdfs,Sqoop,我的工作是将数据从oracle传输到hdfs。我需要一种有效的方法来验证此传输,以确保所有行都正确传输。我觉得一种简单的方法是从源Oracle表中获取行数 select count(*) from tablename; 您将从Oracle表中获得行数 select count(*) from tablename; 从HDFS的角度来看 计算HDFS文件中的行总数: hadoop fs -cat /yourdestinationhdfsfiles/* | wc -l 数据验证策略 创建

我的工作是将数据从oracle传输到hdfs。我需要一种有效的方法来验证此传输,以确保所有行都正确传输。

我觉得一种简单的方法是从源Oracle表中获取行数

 select count(*) from tablename;
您将从Oracle表中获得行数

 select count(*) from tablename;
从HDFS的角度来看

计算HDFS文件中的行总数:

 hadoop fs -cat /yourdestinationhdfsfiles/* | wc -l
数据验证策略

创建一个类似于Oracle表结构的(临时)配置单元表

从目标HDFS文件中获取少量记录,并将数据加载到配置单元表中,验证记录和结构是否匹配。[手动验证过程]

注意:如果您有足够的存储空间和处理单元,也可以对完整数据执行此操作


希望这有帮助

计算行数不能确保列内容匹配,尽管同意@cricket_007,但需要确保内容也匹配,因此此解决方案不适用于此?对但是需要额外的实现来执行行验证