如何验证从外部数据库(oracle)到hdfs的数据传输
我的工作是将数据从oracle传输到hdfs。我需要一种有效的方法来验证此传输,以确保所有行都正确传输。我觉得一种简单的方法是从源Oracle表中获取行数如何验证从外部数据库(oracle)到hdfs的数据传输,oracle,hadoop,hdfs,sqoop,Oracle,Hadoop,Hdfs,Sqoop,我的工作是将数据从oracle传输到hdfs。我需要一种有效的方法来验证此传输,以确保所有行都正确传输。我觉得一种简单的方法是从源Oracle表中获取行数 select count(*) from tablename; 您将从Oracle表中获得行数 select count(*) from tablename; 从HDFS的角度来看 计算HDFS文件中的行总数: hadoop fs -cat /yourdestinationhdfsfiles/* | wc -l 数据验证策略 创建
select count(*) from tablename;
您将从Oracle表中获得行数
select count(*) from tablename;
从HDFS的角度来看
计算HDFS文件中的行总数:
hadoop fs -cat /yourdestinationhdfsfiles/* | wc -l
数据验证策略
创建一个类似于Oracle表结构的(临时)配置单元表
从目标HDFS文件中获取少量记录,并将数据加载到配置单元表中,验证记录和结构是否匹配。[手动验证过程]
注意:如果您有足够的存储空间和处理单元,也可以对完整数据执行此操作
希望这有帮助计算行数不能确保列内容匹配,尽管同意@cricket_007,但需要确保内容也匹配,因此此解决方案不适用于此?对但是需要额外的实现来执行行验证