hadoop上的Kmeans 在每次Kmeans迭代之后,Hadoop是否会将一组集群的输出存储到HDF中,并在下一次迭代中将它们提取到内存中 制图员正在将观测结果分为若干组。我的意思是每个节点都必须知道所有的数据,hadoop只分发计算而不是数据,这样每个节点都会给出某个节点的观察集,对吗

hadoop上的Kmeans 在每次Kmeans迭代之后,Hadoop是否会将一组集群的输出存储到HDF中,并在下一次迭代中将它们提取到内存中 制图员正在将观测结果分为若干组。我的意思是每个节点都必须知道所有的数据,hadoop只分发计算而不是数据,这样每个节点都会给出某个节点的观察集,对吗,hadoop,reduce,k-means,mapper,Hadoop,Reduce,K Means,Mapper,多谢各位 是的,如果我们有数据要从一个MR作业传递到另一个MR作业,HDFS(确切地说是DFS)是唯一的选项。这并没有什么问题,因为我们在这里聚合了集群的带宽 K-Mean群集不需要将所有数据发送到所有节点,它具有这里描述的非常高效的并行实现。 简言之,其想法是将本地可用的group if行到所有中心的距离聚合起来,然后发送少量信息以进行集中处理 是的,如果我们有数据要从一个MR作业传递到另一个MR作业,HDFS(确切地说是DFS)是唯一的选项。这并没有什么问题,因为我们在这里聚合了集群的带宽

多谢各位

  • 是的,如果我们有数据要从一个MR作业传递到另一个MR作业,HDFS(确切地说是DFS)是唯一的选项。这并没有什么问题,因为我们在这里聚合了集群的带宽
  • K-Mean群集不需要将所有数据发送到所有节点,它具有这里描述的非常高效的并行实现。 简言之,其想法是将本地可用的group if行到所有中心的距离聚合起来,然后发送少量信息以进行集中处理
  • 是的,如果我们有数据要从一个MR作业传递到另一个MR作业,HDFS(确切地说是DFS)是唯一的选项。这并没有什么问题,因为我们在这里聚合了集群的带宽
  • K-Mean群集不需要将所有数据发送到所有节点,它具有这里描述的非常高效的并行实现。 简言之,其想法是将本地可用的group if行到所有中心的距离聚合起来,然后发送少量信息以进行集中处理

  • 对于Hadoop/MR这样的迭代处理,由于一次又一次地运行相同的作业,直到实现集群点的收敛,因此会产生开销。Hadoop比下面提到的其他框架慢10倍

    像K-Means这样的迭代处理可以通过使用。两者都实现了BSP。虽然ApacheHama公开了BSP原语,但ApacheGiraph在内部使用BSP,主要用于图形处理,但不公开BSP原语


    Google发布了一篇关于大规模迭代处理的论文,他们使用BSP作为底层模型。

    对于Hadoop/MR这样的迭代处理,由于反复运行相同的作业,直到实现群集点的收敛,因此会产生开销。Hadoop比下面提到的其他框架慢10倍

    像K-Means这样的迭代处理可以通过使用。两者都实现了BSP。虽然ApacheHama公开了BSP原语,但ApacheGiraph在内部使用BSP,主要用于图形处理,但不公开BSP原语


    Google发布了一篇关于大规模迭代处理的论文,他们使用BSP作为底层模型。

    Hadoop和MR对于迭代算法(如KMeans)来说并不是很好的选择,尽管它仍然是可行的。我有机会在Hadoop上实现Markov决策过程,这给我带来了巨大的痛苦,因为每次迭代都涉及到磁盘IO,包括输入和输出。除此之外,在Hadoop集群中启动一个迭代(一个MR作业)需要数十秒


    后来我尝试了Spark,它是一个类似MR的框架,可以在Hadoop上完美地工作。它使用集群中所有商品计算机的内存来缓存迭代不变量,而不是重复地将它们读写回磁盘。您可能想查看:-)

    Hadoop和MR对于迭代算法(如KMeans)来说并不是很好的选择,尽管它仍然是可行的。我有机会在Hadoop上实现Markov决策过程,这给我带来了巨大的痛苦,因为每次迭代都涉及到磁盘IO,包括输入和输出。除此之外,在Hadoop集群中启动一个迭代(一个MR作业)需要数十秒


    后来我尝试了Spark,它是一个类似MR的框架,可以在Hadoop上完美地工作。它使用集群中所有商品计算机的内存来缓存迭代不变量,而不是重复地将它们读写回磁盘。您可能想查看:-)

    非常感谢,您提供的推荐非常有用。非常感谢,您提供的推荐非常有用。