hadoop上的Kmeans 在每次Kmeans迭代之后，Hadoop是否会将一组集群的输出存储到HDF中，并在下一次迭代中将它们提取到内存中制图员正在将观测结果分为若干组。我的意思是每个节点都必须知道所有的数据，hadoop只分发计算而不是数据，这样每个节点都会给出某个节点的观察集，对吗_Hadoop_Reduce_K Means_Mapper

hadoop上的Kmeans 在每次Kmeans迭代之后，Hadoop是否会将一组集群的输出存储到HDF中，并在下一次迭代中将它们提取到内存中制图员正在将观测结果分为若干组。我的意思是每个节点都必须知道所有的数据，hadoop只分发计算而不是数据，这样每个节点都会给出某个节点的观察集，对吗

hadoop

hadoop上的Kmeans 在每次Kmeans迭代之后，Hadoop是否会将一组集群的输出存储到HDF中，并在下一次迭代中将它们提取到内存中制图员正在将观测结果分为若干组。我的意思是每个节点都必须知道所有的数据，hadoop只分发计算而不是数据，这样每个节点都会给出某个节点的观察集，对吗,hadoop,reduce,k-means,mapper,Hadoop,Reduce,K Means,Mapper,多谢各位是的，如果我们有数据要从一个MR作业传递到另一个MR作业，HDFS（确切地说是DFS）是唯一的选项。这并没有什么问题，因为我们在这里聚合了集群的带宽 K-Mean群集不需要将所有数据发送到所有节点，它具有这里描述的非常高效的并行实现。简言之，其想法是将本地可用的group if行到所有中心的距离聚合起来，然后发送少量信息以进行集中处理是的，如果我们有数据要从一个MR作业传递到另一个MR作业，HDFS（确切地说是DFS）是唯一的选项。这并没有什么问题，因为我们在这里聚合了集群的带宽

多谢各位

是的，如果我们有数据要从一个MR作业传递到另一个MR作业，HDFS（确切地说是DFS）是唯一的选项。这并没有什么问题，因为我们在这里聚合了集群的带宽

K-Mean群集不需要将所有数据发送到所有节点，它具有这里描述的非常高效的并行实现。简言之，其想法是将本地可用的group if行到所有中心的距离聚合起来，然后发送少量信息以进行集中处理

是的，如果我们有数据要从一个MR作业传递到另一个MR作业，HDFS（确切地说是DFS）是唯一的选项。这并没有什么问题，因为我们在这里聚合了集群的带宽

对于Hadoop/MR这样的迭代处理，由于一次又一次地运行相同的作业，直到实现集群点的收敛，因此会产生开销。Hadoop比下面提到的其他框架慢10倍

像K-Means这样的迭代处理可以通过使用。两者都实现了BSP。虽然ApacheHama公开了BSP原语，但ApacheGiraph在内部使用BSP，主要用于图形处理，但不公开BSP原语

Google发布了一篇关于大规模迭代处理的论文，他们使用BSP作为底层模型。

对于Hadoop/MR这样的迭代处理，由于反复运行相同的作业，直到实现群集点的收敛，因此会产生开销。Hadoop比下面提到的其他框架慢10倍

像K-Means这样的迭代处理可以通过使用。两者都实现了BSP。虽然ApacheHama公开了BSP原语，但ApacheGiraph在内部使用BSP，主要用于图形处理，但不公开BSP原语

Google发布了一篇关于大规模迭代处理的论文，他们使用BSP作为底层模型。

Hadoop和MR对于迭代算法（如KMeans）来说并不是很好的选择，尽管它仍然是可行的。我有机会在Hadoop上实现Markov决策过程，这给我带来了巨大的痛苦，因为每次迭代都涉及到磁盘IO，包括输入和输出。除此之外，在Hadoop集群中启动一个迭代（一个MR作业）需要数十秒

后来我尝试了Spark，它是一个类似MR的框架，可以在Hadoop上完美地工作。它使用集群中所有商品计算机的内存来缓存迭代不变量，而不是重复地将它们读写回磁盘。您可能想查看：-）

非常感谢，您提供的推荐非常有用。非常感谢，您提供的推荐非常有用。