在EC2上对Hadoop进行基准测试可以获得相同的性能

在EC2上对Hadoop进行基准测试可以获得相同的性能,hadoop,amazon-ec2,Hadoop,Amazon Ec2,我正在尝试对EC2上的Hadoop进行基准测试。我使用的是一个1GB的文件,有1个主文件和5个从文件。当我改变dfs.blocksize的1m、64m、128m、500m等。但令我惊讶的是,无论区块大小,所花费的时间或多或少都在同一范围内。我是如何实现这一惊人的表现的?首先要考虑一些最可能的解释 检查是否正确地传入系统变量以控制作业的拆分大小,如果不更改此项,则不会更改映射器的数量(可以在jobtracker UI中进行检查)。如果你每次都得到相同数量的地图绘制者,你实际上什么都没有改变。要更

我正在尝试对
EC2
上的
Hadoop
进行基准测试。我使用的是一个1GB的文件,有1个主文件和5个从文件。当我改变dfs.blocksize的
1m、64m、128m、500m等
。但令我惊讶的是,无论区块大小,所花费的时间或多或少都在同一范围内。我是如何实现这一惊人的表现的?

首先要考虑一些最可能的解释

  • 检查是否正确地传入系统变量以控制作业的拆分大小,如果不更改此项,则不会更改映射器的数量(可以在jobtracker UI中进行检查)。如果你每次都得到相同数量的地图绘制者,你实际上什么都没有改变。要更改拆分大小,请使用系统道具
    mapred.min.split.size
    mapred.max.split.size
  • 请确保您确实在访问集群,并且没有意外地使用1个进程在本地运行
  • 请注意(与Spark不同),Hadoop的作业初始化时间非常长。IME大约是20秒,因此对于只有1GB的数据,您实际上看不到太多的时间差,因为大部分作业都花在初始化上

您的基准测试是什么?您能告诉我该地产应该放在哪个文件中吗?因为Hadoop 2x中不推荐使用mapred.min.split.size。现在没有mapred-site.xml。我使用-D设置,不使用文件。