Hadoop分布式版本的K-Means？_Hadoop_K Means

Hadoop分布式版本的K-Means？

hadoop

Hadoop分布式版本的K-Means？,hadoop,k-means,Hadoop,K Means,想知道Hadoop分布式版本的K-Means是否有开源实现？要求使用Hadoop，因为数据很大，不能放在一个盒子里提前感谢,， Lin是的，有，mahout有几个k-means实现，例如：mahout.apache.org/users/clustering/k-means-clustering.html是的，有，mahout有几个k-means实现，例如：mahout.apache.org/users/clustering/k-means-clustering.html您可以用于此。火花工具。

想知道Hadoop分布式版本的K-Means是否有开源实现？要求使用Hadoop，因为数据很大，不能放在一个盒子里

提前感谢,，

Lin

是的，有，mahout有几个k-means实现，例如：mahout.apache.org/users/clustering/k-means-clustering.html

您可以用于此。火花工具。Spark使用RDD（弹性分布式数据集）。数据分布在集群上，每个节点处理最近的数据

Spark的性能可能比Mahout更好，因为一些中间过程没有写在HDFS上。

您可以使用它。火花工具。Spark使用RDD（弹性分布式数据集）。数据分布在集群上，每个节点处理最近的数据

Spark的性能可能比Mahout更好，因为一些中间过程没有写在HDFS上。

是的，有，Mahout有几个k-均值实现，例如：是的，有，Mahout有几个k-均值实现，例如：性能太差了，在一台主机上运行快速的k-means实现几乎总是比支付Mahout和Hadoop的巨大开销更快。。。（如果您的数据适合主内存，请不要使用Hadoop）但是性能非常差，在单个主机上运行快速k-means实现几乎总是比在Mahout和Hadoop上花费大量开销更快。。。（如果您的数据适合主内存，请不要使用Hadoop）