Hadoop：迭代MapReduce性能_Hadoop_Mapreduce_Iteration

Hadoop：迭代MapReduce性能

hadoop mapreduce

Hadoop：迭代MapReduce性能,hadoop,mapreduce,iteration,Hadoop,Mapreduce,Iteration,如果说迭代MapReduce的并行计算主要是在训练数据量对于同一逻辑的非并行计算来说太大的情况下进行的，那么这种说法正确吗我知道启动MapReduce作业会有开销。当需要大量迭代时，这对于总体执行时间来说是至关重要的我可以想象，在许多情况下，只要内存允许保存数据集，顺序计算比使用迭代MapReduce的并行计算要快。如果大部分时间是由一台机器执行任务，那么并行处理系统就没有多大意义。与大多数并行化任务相关联的复杂性非常重要，需要有充分的理由来利用它即使很明显，如果没有在可接受的时间内进行

如果说迭代MapReduce的并行计算主要是在训练数据量对于同一逻辑的非并行计算来说太大的情况下进行的，那么这种说法正确吗

我知道启动MapReduce作业会有开销。当需要大量迭代时，这对于总体执行时间来说是至关重要的

我可以想象，在许多情况下，只要内存允许保存数据集，顺序计算比使用迭代MapReduce的并行计算要快。

如果大部分时间是由一台机器执行任务，那么并行处理系统就没有多大意义。与大多数并行化任务相关联的复杂性非常重要，需要有充分的理由来利用它

即使很明显，如果没有在可接受的时间内进行并行处理，就无法解决任务，并行执行框架也有不同的风格：从更低级的、面向科学的工具（如Hadoop）到高级的、专门的（如map/reduce）框架（如Hadoop）

你应该考虑的参数是启动时间和可伸缩性（系统规模接近线性）。如果您需要快速的答案，Hadoop将不是一个好选择，但是如果您可以将您的流程放入map reduce框架中，Hadoop可能是一个好选择。

您可以参考project HaLoop（），它正好解决了这个问题。

@anuj在各种编辑中，您似乎没有理由进行粗体编辑。链接很好，但只要给项目正确的大写拼写，就可以了。