Hadoop完全分布式模式
我是Hadoop的新手。我已经成功开发了一个简单的Map/Reduce应用程序,它在“伪分布式模式”下运行良好。我想在“完全分布式模式”下测试它。我对此没有什么问题Hadoop完全分布式模式,hadoop,cloud,mapreduce,hdfs,Hadoop,Cloud,Mapreduce,Hdfs,我是Hadoop的新手。我已经成功开发了一个简单的Map/Reduce应用程序,它在“伪分布式模式”下运行良好。我想在“完全分布式模式”下测试它。我对此没有什么问题 处理1-10GB的文件需要多少台机器(节点)(最少&推荐) 硬件要求是什么(主要是,我想知道内核、内存空间和磁盘空间的大小) 我想看看Cloudera的硬件建议: 那页的一个片段 针对不同工作负载的各种硬件配置,包括我们最初的“基本”建议: 光处理配置 (1U/台机器):两个四核CPU,8GB 内存和4个磁盘驱动器(1TB或 2T
我想看看Cloudera的硬件建议: 那页的一个片段 针对不同工作负载的各种硬件配置,包括我们最初的“基本”建议:
- 光处理配置 (1U/台机器):两个四核CPU,8GB 内存和4个磁盘驱动器(1TB或 2TB)。请注意,CPU密集型工作 比如自然语言处理 涉及将大型模型加载到 RAM在处理数据之前应 配置2GB RAM/核心 而不是1GB内存/核心李>
- 平衡计算配置(1U/台机器):两个四核CPU、16至24GB内存和4个使用主板控制器直接连接的磁盘驱动器(1TB或2TB)。这些产品通常是一对双胞胎,在一个2U机柜中有两个主板和8个驱动器李>
- 存储密集型配置(2U/台机器):两个四核CPU、16至24GB内存和12个磁盘驱动器(1TB或2TB)。这类机器在怠速状态下的功耗约为~200W,在激活状态下可高达~350W李>
- 计算密集型配置(2U/台机器):两个四核CPU、48-72GB内存和8个磁盘驱动器(1TB或2TB)。当需要结合使用大型内存模型和大量引用数据缓存时,通常会使用这些模型