Configuration Hadoop节点&;核心分配策略

Configuration Hadoop节点&;核心分配策略,configuration,hadoop,mapreduce,hpc,Configuration,Hadoop,Mapreduce,Hpc,我有一个50个节点的集群,每个节点有8个计算核心。 若我有一个工作,我计划对其施加200个减缩器,那个么为了获得更好的性能,什么是好的计算资源分配策略呢 我的意思是,为每个节点分配50个节点和4个核心,还是为每个节点分配25个节点和8个核心更好?在什么情况下哪个更好?很难说,通常都是“越高越好”。 更多的机器将更好地防止故障 通常,Hadoop可以与商品硬件配合使用,您可以选择每个服务器50个4核 但如果8核具有更高的硬件,例如更高的CPU频率、DDR3 RAM或10k rpm磁盘,我会选择它们

我有一个50个节点的集群,每个节点有8个计算核心。 若我有一个工作,我计划对其施加200个减缩器,那个么为了获得更好的性能,什么是好的计算资源分配策略呢


我的意思是,为每个节点分配50个节点和4个核心,还是为每个节点分配25个节点和8个核心更好?在什么情况下哪个更好?很难说,通常都是“越高越好”。 更多的机器将更好地防止故障

通常,Hadoop可以与商品硬件配合使用,您可以选择每个服务器50个4核


但如果8核具有更高的硬件,例如更高的CPU频率、DDR3 RAM或10k rpm磁盘,我会选择它们。

回答您的问题,这取决于几件事。在我看来,50个节点总体上会更好:

  • 如果您正在从磁盘读取大量数据,50个节点会更好,因为您将并行加载磁盘2x
  • 如果您在计算和处理大量数据,50个节点会更好,因为核的数量不会随着处理而按1:1的比例缩放(即,2倍的核不是2倍的速度…同时,更多的处理器会按接近1:1的比例缩放)
  • Hadoop必须在这些节点上运行TaskTracker和DataNode进程,以及操作系统层。这些“占用”的核心,以及
但是,如果您主要关心的是网络,那么拥有50个节点的几个缺点如下:

  • 很可能,50个节点将位于两个机架上。它们是在平面网络上还是必须处理iter机架通信?您必须相应地设置Hadoop
  • 支持50个节点的网络交换机将比支持25个节点的网络交换机更昂贵
  • map和reduce之间的网络混洗将导致50节点集群的切换需要更多的工作,但通过网络传输的数据量仍然大致相同
即使考虑到这些网络问题,我认为您会发现50个节点更好,因为一个节点的值不仅仅是核心数。你必须考虑你有多少个磁盘。