Networking MapReduce网络带宽

Networking MapReduce网络带宽,networking,hadoop,mapreduce,reducers,mappers,Networking,Hadoop,Mapreduce,Reducers,Mappers,我试图测量从一个数据库传输过来的每对(键a,值a)所消耗的时间 映射器映射器i到还原器j 换句话说,我想知道(key_a,value_a)从离开Mapper_I到Reducer_j所用的时间 有没有办法把这个时间从映射器转移到还原器?没有。键/值映射器输出对被捆绑到一个块中,该块被传输到reducer。为什么你认为这是一个有用的指标?事实上,我试图测量映射器和还原器之间数据传输的网络延迟。我需要这个指标,以查看网络是否需要花费更多的时间来将数据从映射器传递到还原器。如果是这种情况,那么网络就是一

我试图测量从一个数据库传输过来的每对(键a,值a)所消耗的时间 映射器映射器i到还原器j

换句话说,我想知道(key_a,value_a)从离开Mapper_I到Reducer_j所用的时间


有没有办法把这个时间从映射器转移到还原器?

没有。键/值映射器输出对被捆绑到一个块中,该块被传输到reducer。为什么你认为这是一个有用的指标?事实上,我试图测量映射器和还原器之间数据传输的网络延迟。我需要这个指标,以查看网络是否需要花费更多的时间来将数据从映射器传递到还原器。如果是这种情况,那么网络就是一个瓶颈。但我需要一些措施才能得出这样的结论。最好使用Ganglia这样的工具来查看网络利用率。映射器和还原器中的键/值之间有几个缓冲区和机制,可以为您提供一个合理的数字。这里有一些细节。我只是在Amazon Elastic MapReduce下运行wordcount示例。我启用了Ganglia,并为每台机器获取了字节输入和字节输出的数据。图中给出了数据传输的最小/最大/平均值。平均值随时间不断变化,这使得它不精确。我需要的是数据从映射器到还原器的实时传输过程中的数据传输速率(从Ganglia或通过任何其他方式)。如果您对使用Ganglia获取此类信息有任何想法,那就太好了。