Linux 在hadoop用户+;在hadoop作业计数器中花费的系统时间还是cpu总时间?
在回答中的一句话中写道:“相同的作业运行在相同的数据上,但在一个20节点的集群上,然后是一个200节点的集群上。总的来说,两个集群将使用相同的CPU时间。”有人能解释这一点吗 我使用了Linux 在hadoop用户+;在hadoop作业计数器中花费的系统时间还是cpu总时间?,linux,hadoop,mapreduce,benchmarking,cpu-time,Linux,Hadoop,Mapreduce,Benchmarking,Cpu Time,在回答中的一句话中写道:“相同的作业运行在相同的数据上,但在一个20节点的集群上,然后是一个200节点的集群上。总的来说,两个集群将使用相同的CPU时间。”有人能解释这一点吗 我使用了time命令来测量实时性。有时我得到的cpu时间(hadoop计数器)比实际实时时间多,反之亦然。我知道实时测量实际经过的时钟时间,它可以大于或小于user+sys 我仍然不知道hadoop中的cpu总时间是多少。 关于编写的时间命令应答,最好使用user+sys进行基准测试 由于process=user+sys占
time
命令来测量实时性。有时我得到的cpu时间(hadoop计数器)比实际实时时间多,反之亦然。我知道实时测量实际经过的时钟时间,它可以大于或小于user+sys
我仍然不知道hadoop中的cpu总时间是多少。
关于编写的时间命令应答,最好使用user+sys进行基准测试
。但我得到了不同的结果李>
如果我在Hadoop用户+系统或总CPU时间花费(Hadoop计数器)?< /LI>中做一些基准任务,我该考虑什么时候?
注:
在apachebenchmark中,他们考虑了实时性,但它也会受到其他进程的影响。所以我不能考虑实时。 相同的作业在相同的数据上运行,但在一个20节点集群上运行,然后在一个200节点集群上运行。总的来说,两个集群上使用的CPU时间相同
这意味着,如果一个作业在20节点集群上花费N
小时,在200节点集群上花费M
小时,那么20*N
应该等于M*200
实时应该是您的选择,但正如您上面所说,该值可能会相应地改变,因此您应该至少尝试3次,并计算平均值作为最终结果。好的。关于第一点,为什么作业计数器中的总cpu时间不同于usr+sys,你知道吗?我认为usr+sys=MAPREDUCT cpu time+cpu usr&sys的一些其他任务,如分配内存或访问硬件等。我说得对吗?@Dhruv绝对不<代码> Ur+Ssys < /C>是客户端进程的运行时间而不是MapReduce框架,所以对于Map Reduce,在我想要测量CPU时间的情况下,我只应该考虑写在作业计数器中的CPU时间,而不是从时间命令得到的,对吗?