Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/hadoop/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
在Hadoop中完成映射和减少任务的时间_Hadoop - Fatal编程技术网

在Hadoop中完成映射和减少任务的时间

在Hadoop中完成映射和减少任务的时间,hadoop,Hadoop,我想要 要知道这两个计数器的真正含义,所有计数器花费的总时间 在已占用的插槽(ms)中映射和所有用户在中花费的总时间 占用的插槽(毫秒)。我刚写了一个类似于单词计数的MR程序 我得到 **所有地图在占用插槽中花费的总时间(毫秒)=15667400 占用的插槽中所有减少项花费的总时间(ms)=158952 所用CPU时间(毫秒)=51930 实数7m38.886s** 为什么会这样??????第一个计数器的值非常高 这实际上是其他三个无法比拟的。请澄清这一点 对我来说 多谢各位 关于可能需要更多关

我想要 要知道这两个计数器的真正含义,所有计数器花费的总时间 在已占用的插槽(ms)中映射和所有用户在中花费的总时间 占用的插槽(毫秒)。我刚写了一个类似于单词计数的MR程序 我得到

**所有地图在占用插槽中花费的总时间(毫秒)=15667400

占用的插槽中所有减少项花费的总时间(ms)=158952

所用CPU时间(毫秒)=51930

实数7m38.886s**

为什么会这样??????第一个计数器的值非常高 这实际上是其他三个无法比拟的。请澄清这一点 对我来说

多谢各位


关于

可能需要更多关于输入数据的上下文,但前两个计数器显示所有映射和减少任务花费的时间。这个数字比其他数字都大,因为您可能有一个多节点hadoop集群和一个大型输入数据集,这意味着您有许多并行运行的映射任务。假设您有1000个并行运行的映射任务,每个任务需要10秒才能完成-在这种情况下,所有映射程序的总时间为1000*10,10000秒。实际上,并行完成映射阶段可能只需要10-30秒,但如果以串行方式运行它们,则使用单个节点、单个映射插槽集群完成映射阶段需要10000秒


所花费的CPU时间指的是总时间中有多少是纯CPU处理的-这比其他时间要小,因为您的作业主要受IO限制(读写磁盘,或通过网络).

可能需要更多关于输入数据的上下文,但前两个计数器显示所有映射和减少任务所花费的时间。这个数字比其他数字都大,因为您可能有一个多节点hadoop集群和一个大型输入数据集,这意味着您有许多并行运行的映射任务。假设您有1000个并行运行的映射任务,每个任务需要10秒才能完成-在这种情况下,所有映射程序的总时间为1000*10,10000秒。实际上,并行完成映射阶段可能只需要10-30秒,但如果以串行方式运行它们,则使用单个节点、单个映射插槽集群完成映射阶段需要10000秒


所花费的CPU时间指的是总时间中有多少是纯CPU处理的-这比其他时间要小,因为您的作业主要受IO限制(读写磁盘,或通过网络).

可能需要更多关于输入数据的上下文,但前两个计数器显示所有映射和减少任务所花费的时间。这个数字比其他数字都大,因为您可能有一个多节点hadoop集群和一个大型输入数据集,这意味着您有许多并行运行的映射任务。假设您有1000个并行运行的映射任务,每个任务需要10秒才能完成-在这种情况下,所有映射程序的总时间为1000*10,10000秒。实际上,并行完成映射阶段可能只需要10-30秒,但如果以串行方式运行它们,则使用单个节点、单个映射插槽集群完成映射阶段需要10000秒


所花费的CPU时间指的是总时间中有多少是纯CPU处理的-这比其他时间要小,因为您的作业主要受IO限制(读写磁盘,或通过网络).

可能需要更多关于输入数据的上下文,但前两个计数器显示所有映射和减少任务所花费的时间。这个数字比其他数字都大,因为您可能有一个多节点hadoop集群和一个大型输入数据集,这意味着您有许多并行运行的映射任务。假设您有1000个并行运行的映射任务,每个任务需要10秒才能完成-在这种情况下,所有映射程序的总时间为1000*10,10000秒。实际上,并行完成映射阶段可能只需要10-30秒,但如果以串行方式运行它们,则使用单个节点、单个映射插槽集群完成映射阶段需要10000秒


所花费的CPU时间是指总时间中有多少是纯CPU处理的-这比其他时间要小,因为您的作业主要是IO绑定的(从磁盘读写,或通过网络)。

我的输入数据是一组PKT,作业类似于字数。我想知道我能不能减少所有地图花费的时间。压缩在这方面有帮助吗???你的平均地图运行时间是多少jsp应该能够告诉您我的输入数据是一组PKT,作业类似于字数。我想知道我能不能减少所有地图花费的时间。压缩在这方面有帮助吗???你的平均地图运行时间是多少jsp应该能够告诉您我的输入数据是一组PKT,作业类似于字数。我想知道我能不能减少所有地图花费的时间。压缩在这方面有帮助吗???你的平均地图运行时间是多少jsp应该能够告诉您我的输入数据是一组PKT,作业类似于字数。我想知道我能不能减少所有地图花费的时间。压缩在这方面有帮助吗???你的平均地图运行时间是多少jsp应该能够告诉您可能您的anwer位于下面的线程可能您的anwer位于下面的线程可能您的anwer位于下面的线程可能您的anwer位于下面的线程可能您的anwer位于下面的线程