Hadoop 为什么三节点集群的性能比单节点集群差?

Hadoop 为什么三节点集群的性能比单节点集群差?,hadoop,mapreduce,distributed-computing,Hadoop,Mapreduce,Distributed Computing,我用多个文件运行了多个测试。(最大的文件是83,7 MB) 我知道网络会带来一些开销,但我希望得到更好的结果,因为我认为使用分布式系统的目的是减少响应时间 我使用/usr/bin/time来衡量性能。这里的问题是什么?如果您的mapreduce密钥被发送到集群中的单个节点,那么与单个节点相比,您的性能没有任何改善,您会增加数据洗牌的网络开销 如果您没有针对硬件调整mapreduce纱线容器大小,那么您将看到性能不佳 如前所述,如果存储大量小于HDFS块大小(如果保留默认值,则为128 MB)的文

我用多个文件运行了多个测试。(最大的文件是83,7 MB)

我知道网络会带来一些开销,但我希望得到更好的结果,因为我认为使用分布式系统的目的是减少响应时间


我使用/usr/bin/time来衡量性能。这里的问题是什么?

如果您的mapreduce密钥被发送到集群中的单个节点,那么与单个节点相比,您的性能没有任何改善您会增加数据洗牌的网络开销

如果您没有针对硬件调整mapreduce纱线容器大小,那么您将看到性能不佳

如前所述,如果存储大量小于HDFS块大小(如果保留默认值,则为128 MB)的文件,则是在浪费资源。此外,如果您正在处理单个大文件(如ZIP文件)或其他“不可拆分”文件格式,那么与单个映射器节点相比没有任何好处

我使用/usr/bin/time来衡量性能

MapReduce作业输出和历史服务器都会告诉您作业及其任务实际需要多长时间