Hadoop分布式版本的K-Means?
想知道Hadoop分布式版本的K-Means是否有开源实现?要求使用Hadoop,因为数据很大,不能放在一个盒子里 提前感谢,,Hadoop分布式版本的K-Means?,hadoop,k-means,Hadoop,K Means,想知道Hadoop分布式版本的K-Means是否有开源实现?要求使用Hadoop,因为数据很大,不能放在一个盒子里 提前感谢,, Lin是的,有,mahout有几个k-means实现,例如:mahout.apache.org/users/clustering/k-means-clustering.html是的,有,mahout有几个k-means实现,例如:mahout.apache.org/users/clustering/k-means-clustering.html您可以用于此。火花工具。
Lin是的,有,mahout有几个k-means实现,例如:mahout.apache.org/users/clustering/k-means-clustering.html是的,有,mahout有几个k-means实现,例如:mahout.apache.org/users/clustering/k-means-clustering.html您可以用于此。火花工具。Spark使用RDD(弹性分布式数据集)。数据分布在集群上,每个节点处理最近的数据 Spark的性能可能比Mahout更好,因为一些中间过程没有写在HDFS上。您可以使用它。火花工具。Spark使用RDD(弹性分布式数据集)。数据分布在集群上,每个节点处理最近的数据
Spark的性能可能比Mahout更好,因为一些中间过程没有写在HDFS上。是的,有,Mahout有几个k-均值实现,例如:是的,有,Mahout有几个k-均值实现,例如:性能太差了,在一台主机上运行快速的k-means实现几乎总是比支付Mahout和Hadoop的巨大开销更快。。。(如果您的数据适合主内存,请不要使用Hadoop)但是性能非常差,在单个主机上运行快速k-means实现几乎总是比在Mahout和Hadoop上花费大量开销更快。。。(如果您的数据适合主内存,请不要使用Hadoop)