Mapreduce 模拟地图还原环境

Mapreduce 模拟地图还原环境,mapreduce,processing,Mapreduce,Processing,为了设计一些算法,我需要模拟map-reduce环境。我假设我有两个作业,每个作业都由一组map和reduce任务组成。我必须假设地图的处理时间,并减少任务。 例如,作业“j1”有3个映射任务和2个缩减任务。现在,map任务与reduce任务的处理时间是否存在任何限制?通常情况如何?在不知道地图和减少任务的情况下,很难做出任何假设。地图的处理时间或减少的任务完全取决于您希望他们做什么,您不能真正做出笼统的假设 例如,您的单个映射函数可以将单个文件作为输入进行处理,或者处理单个行或单个字,所有这些

为了设计一些算法,我需要模拟map-reduce环境。我假设我有两个作业,每个作业都由一组map和reduce任务组成。我必须假设地图的处理时间,并减少任务。
例如,作业“j1”有3个映射任务和2个缩减任务。现在,map任务与reduce任务的处理时间是否存在任何限制?通常情况如何?

在不知道地图和减少任务的情况下,很难做出任何假设。地图的处理时间或减少的任务完全取决于您希望他们做什么,您不能真正做出笼统的假设

例如,您的单个映射函数可以将单个文件作为输入进行处理,或者处理单个行或单个字,所有这些都会直接影响处理时间

减速器也是这样;它可以做很多处理,一点处理,甚至根本不处理。(使用Hadoop的MapReduce实现,您甚至不必为MapReduce任务使用reducer,这证明了处理量是不同的)。这取决于单个任务需要什么


如果您知道模拟的MapReduce作业实际在做什么,您可以使用它来确定不同任务之间的一般处理时间。

谢谢@Eric。我担心的是,如果我假设每个地图的处理时间都比每个减少的时间长,这有意义吗?我的意思是,我可以在现实中找到一个例子,p(map)>p(reduce)@sweet,在某些情况下,这是有意义的,是的。我试图让大家明白,这完全取决于你想要映射和reduce函数做什么。所以如果你想假设p(map)>p(reduce),那么当然,在某些情况下会发生这种情况。因为你似乎是在抽象的意义上使用它们,而不是基于实际的函数,如果这是你需要假设的,那么你可以肯定地假设。