Algorithm 在MapReduce范例中可以重铸哪些类型/类别的算法?
一些“快速问题”:Algorithm 在MapReduce范例中可以重铸哪些类型/类别的算法?,algorithm,parallel-processing,hadoop,mapreduce,Algorithm,Parallel Processing,Hadoop,Mapreduce,一些“快速问题”: 在MapReduce范例中可以重铸哪些类型/类别的算法?(例如,k-means具有MR实现) 有什么不能用这种方式表达的吗 什么样的算法特征使它们在MR范式中不那么吸引人/复杂 提前感谢您的帮助 Max.Map-Reduce范式最适合于“令人尴尬的并行”问题,即任何两个任务之间都没有依赖关系。请查看维基百科上的文章 此外,在操作是交换或关联的情况下,MapReduce程序可以轻松优化以获得更好的性能。我正在为来自MPI世界的一系列大数据算法解决同样的问题。这是我的照片 M
- 在MapReduce范例中可以重铸哪些类型/类别的算法?(例如,k-means具有MR实现)
- 有什么不能用这种方式表达的吗
- 什么样的算法特征使它们在MR范式中不那么吸引人/复杂
Max.Map-Reduce范式最适合于“令人尴尬的并行”问题,即任何两个任务之间都没有依赖关系。请查看维基百科上的文章
此外,在操作是交换或关联的情况下,MapReduce程序可以轻松优化以获得更好的性能。我正在为来自MPI世界的一系列大数据算法解决同样的问题。这是我的照片 MR配方的基本管道似乎是扩张/收缩。将映射应用于一个较大的集合,可能会创建一个更大的集合,然后使用reduce对该集合进行排序/组织,以便将其聚合为一个合并的数据集,最好更小。您需要的映射和减少的数量是MR算法的聪明之处 作为一种通用计算方法,您可以使用MR解决任何计算问题,但从实际角度来看,MR的资源利用率偏向于具有高并发I/O要求的计算问题。像单词计数这样令人尴尬的并行算法当然适合这项法案,但它比这更广泛,例如,你的k-means算法是一个约束最小化问题,没有人会将其归类为令人尴尬的并行,但仍然有一个有效的MR公式 我当前的正式框架从五个方面描述了分布式计算机系统的特征:
刚刚找到杰夫·福克斯(Geoff Fox)的一篇优秀文章:他创造了一个名为“令人愉快的并行”的类:各种令人愉快的并行应用程序,分析大致独立的数据或生成独立的模拟。