Hadoop完全分布式模式_Hadoop_Cloud_Mapreduce_Hdfs

Hadoop完全分布式模式

hadoop cloud mapreduce

Hadoop完全分布式模式,hadoop,cloud,mapreduce,hdfs,Hadoop,Cloud,Mapreduce,Hdfs,我是Hadoop的新手。我已经成功开发了一个简单的Map/Reduce应用程序，它在“伪分布式模式”下运行良好。我想在“完全分布式模式”下测试它。我对此没有什么问题处理1-10GB的文件需要多少台机器（节点）（最少&推荐）硬件要求是什么（主要是，我想知道内核、内存空间和磁盘空间的大小）我想看看Cloudera的硬件建议：那页的一个片段针对不同工作负载的各种硬件配置，包括我们最初的“基本”建议：光处理配置（1U/台机器）：两个四核CPU，8GB 内存和4个磁盘驱动器（1TB或 2T

我是Hadoop的新手。我已经成功开发了一个简单的Map/Reduce应用程序，它在“伪分布式模式”下运行良好。我想在“完全分布式模式”下测试它。我对此没有什么问题

处理1-10GB的文件需要多少台机器（节点）（最少&推荐）

硬件要求是什么（主要是，我想知道内核、内存空间和磁盘空间的大小）

我想看看Cloudera的硬件建议：

那页的一个片段

针对不同工作负载的各种硬件配置，包括我们最初的“基本”建议：

光处理配置（1U/台机器）：两个四核CPU，8GB 内存和4个磁盘驱动器（1TB或 2TB）。请注意，CPU密集型工作比如自然语言处理涉及将大型模型加载到 RAM在处理数据之前应配置2GB RAM/核心而不是1GB内存/核心
平衡计算配置（1U/台机器）：两个四核CPU、16至24GB内存和4个使用主板控制器直接连接的磁盘驱动器（1TB或2TB）。这些产品通常是一对双胞胎，在一个2U机柜中有两个主板和8个驱动器
存储密集型配置（2U/台机器）：两个四核CPU、16至24GB内存和12个磁盘驱动器（1TB或2TB）。这类机器在怠速状态下的功耗约为~200W，在激活状态下可高达~350W
计算密集型配置（2U/台机器）：两个四核CPU、48-72GB内存和8个磁盘驱动器（1TB或2TB）。当需要结合使用大型内存模型和大量引用数据缓存时，通常会使用这些模型

您必须提供更多关于处理类型、您使用的API、输入文件类型等的信息，以便任何人都能有根据地猜测一个像样的集群会是什么样子。考虑到这一点，对于相同规格的节点，您的性能将线性扩展，因此您可以很容易地自行对其进行基准测试，并通过添加1-2个节点和记录hadoop作业的时间来找出答案。