在Hadoop中完成映射和减少任务的时间_Hadoop

在Hadoop中完成映射和减少任务的时间

hadoop

在Hadoop中完成映射和减少任务的时间,hadoop,Hadoop,我想要要知道这两个计数器的真正含义，所有计数器花费的总时间在已占用的插槽（ms）中映射和所有用户在中花费的总时间占用的插槽（毫秒）。我刚写了一个类似于单词计数的MR程序我得到 **所有地图在占用插槽中花费的总时间（毫秒）=15667400 占用的插槽中所有减少项花费的总时间（ms）=158952 所用CPU时间（毫秒）=51930 实数7m38.886s** 为什么会这样？？？？？？第一个计数器的值非常高这实际上是其他三个无法比拟的。请澄清这一点对我来说多谢各位关于可能需要更多关

我想要要知道这两个计数器的真正含义，所有计数器花费的总时间在已占用的插槽（ms）中映射和所有用户在中花费的总时间占用的插槽（毫秒）。我刚写了一个类似于单词计数的MR程序我得到

**所有地图在占用插槽中花费的总时间（毫秒）=15667400

占用的插槽中所有减少项花费的总时间（ms）=158952

所用CPU时间（毫秒）=51930

实数7m38.886s**

为什么会这样？？？？？？第一个计数器的值非常高这实际上是其他三个无法比拟的。请澄清这一点对我来说

多谢各位

关于

可能需要更多关于输入数据的上下文，但前两个计数器显示所有映射和减少任务花费的时间。这个数字比其他数字都大，因为您可能有一个多节点hadoop集群和一个大型输入数据集，这意味着您有许多并行运行的映射任务。假设您有1000个并行运行的映射任务，每个任务需要10秒才能完成-在这种情况下，所有映射程序的总时间为1000*10，10000秒。实际上，并行完成映射阶段可能只需要10-30秒，但如果以串行方式运行它们，则使用单个节点、单个映射插槽集群完成映射阶段需要10000秒

所花费的CPU时间指的是总时间中有多少是纯CPU处理的-这比其他时间要小，因为您的作业主要受IO限制（读写磁盘，或通过网络）.

可能需要更多关于输入数据的上下文，但前两个计数器显示所有映射和减少任务所花费的时间。这个数字比其他数字都大，因为您可能有一个多节点hadoop集群和一个大型输入数据集，这意味着您有许多并行运行的映射任务。假设您有1000个并行运行的映射任务，每个任务需要10秒才能完成-在这种情况下，所有映射程序的总时间为1000*10，10000秒。实际上，并行完成映射阶段可能只需要10-30秒，但如果以串行方式运行它们，则使用单个节点、单个映射插槽集群完成映射阶段需要10000秒

所花费的CPU时间指的是总时间中有多少是纯CPU处理的-这比其他时间要小，因为您的作业主要受IO限制（读写磁盘，或通过网络）.

所花费的CPU时间是指总时间中有多少是纯CPU处理的-这比其他时间要小，因为您的作业主要是IO绑定的（从磁盘读写，或通过网络）。

我的输入数据是一组PKT，作业类似于字数。我想知道我能不能减少所有地图花费的时间。压缩在这方面有帮助吗？？？你的平均地图运行时间是多少jsp应该能够告诉您我的输入数据是一组PKT，作业类似于字数。我想知道我能不能减少所有地图花费的时间。压缩在这方面有帮助吗？？？你的平均地图运行时间是多少jsp应该能够告诉您我的输入数据是一组PKT，作业类似于字数。我想知道我能不能减少所有地图花费的时间。压缩在这方面有帮助吗？？？你的平均地图运行时间是多少jsp应该能够告诉您我的输入数据是一组PKT，作业类似于字数。我想知道我能不能减少所有地图花费的时间。压缩在这方面有帮助吗？？？你的平均地图运行时间是多少jsp应该能够告诉您可能您的anwer位于下面的线程可能您的anwer位于下面的线程可能您的anwer位于下面的线程可能您的anwer位于下面的线程可能您的anwer位于下面的线程