Hadoop 为什么三节点集群的性能比单节点集群差？_Hadoop_Mapreduce_Distributed Computing

Hadoop 为什么三节点集群的性能比单节点集群差？

hadoop mapreduce

Hadoop 为什么三节点集群的性能比单节点集群差？,hadoop,mapreduce,distributed-computing,Hadoop,Mapreduce,Distributed Computing,我用多个文件运行了多个测试。（最大的文件是83,7 MB）我知道网络会带来一些开销，但我希望得到更好的结果，因为我认为使用分布式系统的目的是减少响应时间我使用/usr/bin/time来衡量性能。这里的问题是什么？如果您的mapreduce密钥被发送到集群中的单个节点，那么与单个节点相比，您的性能没有任何改善，您会增加数据洗牌的网络开销如果您没有针对硬件调整mapreduce纱线容器大小，那么您将看到性能不佳如前所述，如果存储大量小于HDFS块大小（如果保留默认值，则为128 MB）的文

我用多个文件运行了多个测试。（最大的文件是83,7 MB）

我知道网络会带来一些开销，但我希望得到更好的结果，因为我认为使用分布式系统的目的是减少响应时间

我使用/usr/bin/time来衡量性能。这里的问题是什么？

如果您的mapreduce密钥被发送到集群中的单个节点，那么与单个节点相比，您的性能没有任何改善，您会增加数据洗牌的网络开销

如果您没有针对硬件调整mapreduce纱线容器大小，那么您将看到性能不佳

如前所述，如果存储大量小于HDFS块大小（如果保留默认值，则为128 MB）的文件，则是在浪费资源。此外，如果您正在处理单个大文件（如ZIP文件）或其他“不可拆分”文件格式，那么与单个映射器节点相比没有任何好处

我使用/usr/bin/time来衡量性能

MapReduce作业输出和历史服务器都会告诉您作业及其任务实际需要多长时间