Mapreduce 大型Hadoop集群的计算容量和存储容量之间的典型关系是什么?

Mapreduce 大型Hadoop集群的计算容量和存储容量之间的典型关系是什么?,mapreduce,data-warehouse,Mapreduce,Data Warehouse,我正在考虑确定一个大型集群(10k内核)的规模,该集群需要同时支持与计算相关的深度分析和与I/O相关的大数据,我想听听一些构建了大数据集群的人,他们过去是如何确定计算机与本地磁盘存储的规模的。我假设采用基于MapReduced的在线数据仓库所倡导的直连存储体系结构 看看anno 2012中的一些中密度刀片设备,例如dual Xeon 5650,我可以将每台服务器大约2TB用作直连存储。这将使我每2TB存储大约有100TFlops,或者说是5:1的比率。低密度设备可低至1:1,高密度设备可高达10

我正在考虑确定一个大型集群(10k内核)的规模,该集群需要同时支持与计算相关的深度分析和与I/O相关的大数据,我想听听一些构建了大数据集群的人,他们过去是如何确定计算机与本地磁盘存储的规模的。我假设采用基于MapReduced的在线数据仓库所倡导的直连存储体系结构

看看anno 2012中的一些中密度刀片设备,例如dual Xeon 5650,我可以将每台服务器大约2TB用作直连存储。这将使我每2TB存储大约有100TFlops,或者说是5:1的比率。低密度设备可低至1:1,高密度设备可高达10:1


我很想知道其他大数据公司的运营比率

以下是一些关于Hadoop硬件规模的文章。

来自2011年9月HortonWorks的Eric Baldeschwieler的Praveen第三篇文章:

我们被问及很多关于如何选择ApacheHadoop工作节点硬件的问题。我在雅虎工作期间!,我们购买了很多节点,这些节点具有6*2TB SATA驱动器、24GB RAM和双插槽配置的8核。事实证明,这是一种非常好的配置。今年,我看到的系统采用12*2TB SATA驱动器、48GB RAM和8核双插槽配置。今年我们将看到3TB硬盘的迁移


对于任何给定的组织来说,什么样的配置是有意义的,这取决于工作负载的存储与计算比率以及其他无法以一般方式回答的因素。此外,硬件行业发展迅速。在这篇文章中,我将尝试概述过去六年来指导Hadoop硬件配置选择的原则。所有这些想法都旨在设计中型到大型ApacheHadoop集群。前几天,Scott Carey在Apache邮件列表上为小型计算机和小型集群提供了一个很好的案例。

第三篇文章给出了答案