Hadoop完全分布式模式

Hadoop完全分布式模式,hadoop,cloud,mapreduce,hdfs,Hadoop,Cloud,Mapreduce,Hdfs,我是Hadoop的新手。我已经成功开发了一个简单的Map/Reduce应用程序,它在“伪分布式模式”下运行良好。我想在“完全分布式模式”下测试它。我对此没有什么问题 处理1-10GB的文件需要多少台机器(节点)(最少&推荐) 硬件要求是什么(主要是,我想知道内核、内存空间和磁盘空间的大小) 我想看看Cloudera的硬件建议: 那页的一个片段 针对不同工作负载的各种硬件配置,包括我们最初的“基本”建议: 光处理配置 (1U/台机器):两个四核CPU,8GB 内存和4个磁盘驱动器(1TB或 2T

我是Hadoop的新手。我已经成功开发了一个简单的Map/Reduce应用程序,它在“伪分布式模式”下运行良好。我想在“完全分布式模式”下测试它。我对此没有什么问题

  • 处理1-10GB的文件需要多少台机器(节点)(最少&推荐)
  • 硬件要求是什么(主要是,我想知道内核、内存空间和磁盘空间的大小)

  • 我想看看Cloudera的硬件建议:

    那页的一个片段

    针对不同工作负载的各种硬件配置,包括我们最初的“基本”建议:

    • 光处理配置 (1U/台机器):两个四核CPU,8GB 内存和4个磁盘驱动器(1TB或 2TB)。请注意,CPU密集型工作 比如自然语言处理 涉及将大型模型加载到 RAM在处理数据之前应 配置2GB RAM/核心 而不是1GB内存/核心
    • 平衡计算配置(1U/台机器):两个四核CPU、16至24GB内存和4个使用主板控制器直接连接的磁盘驱动器(1TB或2TB)。这些产品通常是一对双胞胎,在一个2U机柜中有两个主板和8个驱动器
    • 存储密集型配置(2U/台机器):两个四核CPU、16至24GB内存和12个磁盘驱动器(1TB或2TB)。这类机器在怠速状态下的功耗约为~200W,在激活状态下可高达~350W
    • 计算密集型配置(2U/台机器):两个四核CPU、48-72GB内存和8个磁盘驱动器(1TB或2TB)。当需要结合使用大型内存模型和大量引用数据缓存时,通常会使用这些模型

    您必须提供更多关于处理类型、您使用的API、输入文件类型等的信息,以便任何人都能有根据地猜测一个像样的集群会是什么样子。考虑到这一点,对于相同规格的节点,您的性能将线性扩展,因此您可以很容易地自行对其进行基准测试,并通过添加1-2个节点和记录hadoop作业的时间来找出答案。