Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/hadoop/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Hadoop 如何计算从一个配置单元表复制到另一个配置单元表的行数_Hadoop_Hive_Hdfs - Fatal编程技术网

Hadoop 如何计算从一个配置单元表复制到另一个配置单元表的行数

Hadoop 如何计算从一个配置单元表复制到另一个配置单元表的行数,hadoop,hive,hdfs,Hadoop,Hive,Hdfs,我正在将数据从一个配置单元表移动到另一个配置单元表。在移动数据时,我添加了几个新列,添加了分区并应用了压缩 我想知道是否有一种简单的方法可以知道从一个表移动到另一个表的行数是相同的。只是为了验证移动数据操作。 目前,我正在两个表上进行计数,这占用了太多的时间,因为行数在10^10量级 谢谢在将数据从第一个表传输到第二个表的过程中触发map reduce作业时,您可以使用map/reduce中的记录计数器来验证行计数。我没有编写任何map reduce作业,我只是在java代码中编写配置单元查询并

我正在将数据从一个配置单元表移动到另一个配置单元表。在移动数据时,我添加了几个新列,添加了分区并应用了压缩

我想知道是否有一种简单的方法可以知道从一个表移动到另一个表的行数是相同的。只是为了验证移动数据操作。 目前,我正在两个表上进行计数,这占用了太多的时间,因为行数在10^10量级


谢谢

在将数据从第一个表传输到第二个表的过程中触发map reduce作业时,您可以使用map/reduce中的记录计数器来验证行计数。

我没有编写任何map reduce作业,我只是在java代码中编写配置单元查询并执行查询。查询如下所示,我根据不同的表动态生成。插入表第二个表选择列1、列2。。。从FirstTable从配置单元外壳运行此命令:配置单元>设置配置单元.execution.engine;如果该值显示为mr,则在通过配置单元传输的过程中会触发map reduce作业,以从源表中移动数据。您应该在日志中看到作业id。它显示mr,我知道已触发map reduce作业。如何在代码中放置计数器或如何在运行时访问reducer任务。我的代码只是简单地执行配置单元脚本,mapper reducer的生成是在后台进行的。计数器由map reduce框架添加到作业中。触发作业时,会提供要跟踪的作业id和url,您可以使用该id和url从该页面访问计数器。或者你也可以使用api,谢谢你的链接,我在管理员中看到了所有的计数器。很少有表的countergroupname=HIVE具有正确计数的记录输入和记录输出信息,但很少有表没有这样的组?另外,如何在运行时获取作业ID?