Hadoop 如何确定要在-w参数中设置的giraph的工作进程数?

Hadoop 如何确定要在-w参数中设置的giraph的工作进程数?,hadoop,amazon-ec2,yarn,giraph,Hadoop,Amazon Ec2,Yarn,Giraph,我使用的是一个ec2 hadoop集群,它由20台c3.8X大型计算机组成,每台计算机都有60 GB RAM和32个虚拟CPU。 在每台机器中,我都设置了纱线和mapreduce设置,如下所示: c3.8xlarge Configuration Option Default Value mapreduce.map.java.opts -Xmx1331m mapreduce.reduce.java.opts -Xmx2662m mapreduce.map.memory.mb 1664 ma

我使用的是一个ec2 hadoop集群,它由20台c3.8X大型计算机组成,每台计算机都有60 GB RAM和32个虚拟CPU。 在每台机器中,我都设置了纱线和mapreduce设置,如下所示:

c3.8xlarge
Configuration Option    Default Value
mapreduce.map.java.opts -Xmx1331m
mapreduce.reduce.java.opts  -Xmx2662m
mapreduce.map.memory.mb 1664
mapreduce.reduce.memory.mb  3328
yarn.app.mapreduce.am.resource.mb   3328
yarn.scheduler.minimum-allocation-mb    32
yarn.scheduler.maximum-allocation-mb    53248
yarn.nodemanager.resource.memory-mb 53248

现在,为了确定giraph使用的最合适的工人数量,我必须使用什么标准?即-w参数必须使用什么数字?该标准与上述设置相关吗?

没有最佳数量,但您可以大致计算出最多的并行工作线程

每个节点管理器都有53248MB,乘以从属节点数

从中仅减去一个
am.resource.mb
amount,因为所有作业都需要一个应用程序主机

然后将其除以mapper或reducer内存中较大的一个,即可以同时运行的MapReduce任务总数