hadoop集群应该在相同的硬件上运行吗?

hadoop集群应该在相同的硬件上运行吗?,hadoop,Hadoop,我记得在某个地方读到过,如果Hadoop运行的机器彼此非常不同,它的性能会显著下降,但我似乎再也找不到这样的评论了。我正在考虑在我的团队不直接管理的虚拟机阵列上运行Hadoop集群,我需要知道这是否是我应该在请求中提出的要求 那么,我应该坚持我所有的机器都有相同的硬件,还是可以在不同的机器上以不同的硬件配置运行 谢谢。以下文章介绍了异构集群如何影响hadoop map reduce的性能: 在异构集群中,节点的计算能力可能会有所不同 非常重要。高速节点可以完成对存储在网络中的数据的处理 节点的本

我记得在某个地方读到过,如果Hadoop运行的机器彼此非常不同,它的性能会显著下降,但我似乎再也找不到这样的评论了。我正在考虑在我的团队不直接管理的虚拟机阵列上运行Hadoop集群,我需要知道这是否是我应该在请求中提出的要求

那么,我应该坚持我所有的机器都有相同的硬件,还是可以在不同的机器上以不同的硬件配置运行


谢谢。

以下文章介绍了异构集群如何影响hadoop map reduce的性能:

在异构集群中,节点的计算能力可能会有所不同 非常重要。高速节点可以完成对存储在网络中的数据的处理 节点的本地磁盘速度比低速对应磁盘快。过了一会儿 快速节点完成对其本地输入数据的处理,该节点 必须通过处理一个数据库中未处理的数据来支持负载共享 一个或多个远程慢速节点。当由于以下原因而传输的数据量 负载共享非常大,移动未处理数据的开销很大 从慢速节点到快速节点成为影响性能的关键问题 Hadoop的性能

以下参考资料提供了更多详细信息:

  • 它还提供了提高异构集群性能或避免这种性能损失的方法

    明智的建议是,您的集群上有同质的机器,但如果这些机器没有完全不同的规格和性能差异,您应该继续构建集群

    对于生产系统,您应该建议使用同质机器。对于开发来说,性能并不重要


    然而,在构建Hadoop集群之后,您应该能够对其进行基准测试。

    同质集群当然是理想的,但严格来说并不是必需的。雅虎!,例如,Inc.在其生产环境中运行异构集群。通过与那里的研究人员交谈,他们发现,由于调度问题,性能受到了影响(这一影响足够大,以至于他们正在努力将具有性能意识的调度添加到他们的工具中),但惩罚并不严重