Architecture 具有7台服务器的Hadoop体系结构-平衡连续性和性能
我们正在从AWS MapReduce转移到我们自己机架上的Hadoop集群。最初,我们将有7台专用于Hadoop/HDFS的服务器 我们存储在HDFS上的数据将是任务关键型的,我不希望我们有备份选项(至少在使用的第一天没有),所以我想尽我所能保证连续性 我还想最大限度地利用我们的计算能力,因为我们的工作可以很容易地使用两倍的硬件Architecture 具有7台服务器的Hadoop体系结构-平衡连续性和性能,architecture,hadoop,hdfs,Architecture,Hadoop,Hdfs,我们正在从AWS MapReduce转移到我们自己机架上的Hadoop集群。最初,我们将有7台专用于Hadoop/HDFS的服务器 我们存储在HDFS上的数据将是任务关键型的,我不希望我们有备份选项(至少在使用的第一天没有),所以我想尽我所能保证连续性 我还想最大限度地利用我们的计算能力,因为我们的工作可以很容易地使用两倍的硬件 在这个7服务器集群中,我应该为每个框指定什么?特别是哪些流程应该重叠(例如,备份名称节点是否应该作为任务节点和类似节点共享一个框?) 我们最后做的是: 使用LXC(L
- 在这个7服务器集群中,我应该为每个框指定什么?特别是哪些流程应该重叠(例如,备份名称节点是否应该作为任务节点和类似节点共享一个框?)
我们确实有一次(磁盘)因硬件故障丢失了namenode,并且能够成功地从次要节点恢复它。我们将尝试使用LXC容器来分离各种进程(任务节点、名称节点、次要名称节点、主节点),并将名称节点、次要节点和主节点与任务节点重叠(因为这些服务器都有一个大磁盘和比名称节点或主节点所需的更多cpu+内存)。我们将使用cgroups来保证主节点和名称节点的资源。我将在将来尝试时自己回答这个问题。您曾经实现过这一点吗?