Analysis 将Reduce算法映射到TB数据上?

Analysis 将Reduce算法映射到TB数据上?,analysis,mapreduce,Analysis,Mapreduce,这个问题没有一个“正确”的答案 我对在集群上运行Map Reduce算法感兴趣,对TB级的数据感兴趣 我想进一步了解上述算法的运行时间 我应该读什么书 我对设置Map Reduce集群或运行标准算法不感兴趣。我需要严格的理论处理或运行时间 编辑:问题不在于映射减少了更改的运行时间。问题是——大多数算法在映射reduce框架时分布不好。我对在map reduce框架上运行的算法很感兴趣。从技术上讲,MapReduce的运行时分析与“标准”算法相比没有什么实质性的区别——MapReduce仍然是一种

这个问题没有一个“正确”的答案

我对在集群上运行Map Reduce算法感兴趣,对TB级的数据感兴趣

我想进一步了解上述算法的运行时间

我应该读什么书

我对设置Map Reduce集群或运行标准算法不感兴趣。我需要严格的理论处理或运行时间


编辑:问题不在于映射减少了更改的运行时间。问题是——大多数算法在映射reduce框架时分布不好。我对在map reduce框架上运行的算法很感兴趣。

从技术上讲,MapReduce的运行时分析与“标准”算法相比没有什么实质性的区别——MapReduce仍然是一种与其他算法一样的算法(或者具体地说,是一类在多个步骤中出现的算法,这些步骤之间有一定的交互作用)

MapReduce作业的运行时仍将衡量正常算法分析预测的程度,即当您将任务划分到多台机器上,然后找到每个步骤所需的最大单个机器时间时

也就是说,如果您的任务需要在N台机器上运行M个map操作和R个reduce操作,并且您希望平均map操作需要M个时间和平均reduce操作R个时间,那么您将有一个
ceil(M/N)*M+ceil(R/N)*R
时间的预期运行时间来完成所有相关任务


对M、R、M和R值的预测都可以通过对MapReduce中插入的任何算法进行常规分析来完成。

据我所知,只有两本书已经出版,但还有更多的书正在出版:

其中,Pro Hadoop更像是一本入门书,而权威指南则面向那些知道Hadoop到底是什么的人

我拥有权威指南,认为它是一本优秀的书。它提供了有关HDFS如何工作的良好技术细节,并涵盖了一系列相关主题,如MapReduce、Pig、Hive、HBase等。还应该注意的是,这本书是由Tom White撰写的,他已经参与Hadoop开发一段时间了,没有w在工作

至于Hadoop上的算法分析,你可以看看TB排序基准测试。Yahoo已经写了一篇关于Hadoop在这个特定基准测试中的表现的文章:。这篇论文是在2008年写的


有关2009年结果的更多详细信息,请参见。

有一本关于应用于MapReduce模型的数据挖掘算法的好书

这本书由两位斯坦福大学教授撰写,如果免费的话: