hadoop集群的最佳块大小

hadoop集群的最佳块大小,hadoop,mapreduce,Hadoop,Mapreduce,我正在hadoop中开发一个四节点多集群。我对块大小进行了一系列实验,如下所示,并计算了运行时间 所有这些都是在20GB的输入文件上执行的。 64MB-32分钟, 128MB-19分钟, 256MB-15分钟, 1GB-12.5分钟 我是否应该继续使用2GB块大小?如果在90GB文件上执行类似操作,请解释最佳块大小。谢谢 您应该使用2Gb进行测试并比较结果 只有你考虑下一步:更大的块大小最小化了创建映射任务的开销,但是对于非本地任务,Hadoop需要将所有块传送到远程节点(这里网络带宽限制),那

我正在hadoop中开发一个四节点多集群。我对块大小进行了一系列实验,如下所示,并计算了运行时间

所有这些都是在20GB的输入文件上执行的。 64MB-32分钟, 128MB-19分钟, 256MB-15分钟, 1GB-12.5分钟


我是否应该继续使用2GB块大小?如果在90GB文件上执行类似操作,请解释最佳块大小。谢谢

您应该使用2Gb进行测试并比较结果

只有你考虑下一步:更大的块大小最小化了创建映射任务的开销,但是对于非本地任务,Hadoop需要将所有块传送到远程节点(这里网络带宽限制),那么最小块大小在这里执行得更好。


在您的例子中,4个节点(我假设通过局域网中的交换机或路由器连接),2Gb不是问题。但是在其他环境中答案是不正确的,这会导致更高的错误率。

@Ashrith:我需要不同的答案。在将问题标记为重复问题之前,请再次检查该问题。该问题与您之前的问题非常相似。您可以修改原始问题,而不是创建新问题。是的。但是,编辑之后,我几乎找不到问题的答案。这是在堆栈溢出中发生的事情!问题只有在被问到时才是活动的。由于我的这段经历,我已经发布了另一个。谢谢。使用交换机或局域网进行hadoop操作更好吗?@re3el最重要的因素是处理器的带宽。带磁盘IO和RAM的Bandwith是Hadoop集群中常见的边界限制。只用于集群的交换机是可取的,但如果需要,您可以在组织中使用通用交换机。