Hadoop 基于MapReduce的聚类设计

Hadoop 基于MapReduce的聚类设计,hadoop,mapreduce,cluster-analysis,data-mining,k-means,Hadoop,Mapreduce,Cluster Analysis,Data Mining,K Means,我得到了这样一个相似性矩阵:ItemA,ItemB,相似性 我希望它通过使用MapReduce使用Kmeans等算法对数据集进行聚类。但是我不知道我应该使用多少MapReduces以及如何设计它们。您不能将k-means与相似矩阵一起使用。故事的结尾:k-means需要与方法相似,而不是实例之间的相似。但也有其他的算法。不幸的是,例如PAM的扩展性非常差,在集群上运行它也没有什么好处 除此之外,只是实验。例如,选择尽可能多的内核;并选择尽可能多的映射器(除非您的数据太小,否则每个映射器应该有几M

我得到了这样一个相似性矩阵:
ItemA
ItemB
相似性


我希望它通过使用
MapReduce
使用
Kmeans
等算法对数据集进行聚类。但是我不知道我应该使用多少
MapReduce
s以及如何设计它们。

不能将k-means与相似矩阵一起使用。故事的结尾:k-means需要与方法相似,而不是实例之间的相似。但也有其他的算法。不幸的是,例如PAM的扩展性非常差,在集群上运行它也没有什么好处

除此之外,只是实验。例如,选择尽可能多的内核;并选择尽可能多的映射器(除非您的数据太小,否则每个映射器应该有几MB的空间,以使启动成本得到回报)


但我认为你还没有准备好回答这个问题。首先要弄清楚你想做什么,然后如何设置可能会出现或根本不会出现的参数。

听起来你是在找教程,而不是问一个特定的问题。你的数据看起来怎么样?你有相似性矩阵还是原始数据?你的目标是什么?您想要群集什么?你提到K-Means,你知道你想要多少个中心吗?如果不是,您知道在运行K-Means之前是否需要分区算法吗?如果是,哪一个?你在网上读过那些东西吗?您想使用任何有助于您的框架吗?你所说的
多个MapReduces
是什么意思?这个问题太不清楚了,我很惊讶你能为此获得更多的选票。