Hadoop dfs.block.size对TeraGen的性能没有影响

Hadoop dfs.block.size对TeraGen的性能没有影响,hadoop,Hadoop,我在hdfs-size.xml中将dfs.block.size从64MB更改为1MB,并运行teragen以探索对作业性能的影响。但是,映射任务的数量没有改变,我认为它应该变大,因为它与文件大小/块大小相等。而且,完成这项工作所需的时间几乎相同。这正常吗 TeraGen用于生成数据。所以基本上这不需要输入就可以为TeraSort生成数据 所以在这种情况下,贴图器的数量基本上不受块大小的影响 如果您想在这种情况下影响性能,请尝试增加减速器的数量。非常感谢。你的回答真的很有帮助。TeraGen没有输

我在hdfs-size.xml中将dfs.block.size从64MB更改为1MB,并运行teragen以探索对作业性能的影响。但是,映射任务的数量没有改变,我认为它应该变大,因为它与文件大小/块大小相等。而且,完成这项工作所需的时间几乎相同。这正常吗

TeraGen用于生成数据。所以基本上这不需要输入就可以为TeraSort生成数据


所以在这种情况下,贴图器的数量基本上不受块大小的影响

如果您想在这种情况下影响性能,请尝试增加减速器的数量。非常感谢。你的回答真的很有帮助。TeraGen没有输入,只为TeraSort生成数据。但我有一个问题。我发现,当我对生成的数据使用不同的dfs.block.size时,TeraGen的完成时间是不同的,但变化不是单调的。这是因为较大的dfs.block.size会减少namenode的负载,但也会降低并行访问的总吞吐量??再次感谢。更大的块大小将意味着更少的映射器,从而为每个映射器处理更多的输入。如果小文件过多,Namenode搜索性能将下降。