Warning: file_get_contents(/data/phpspider/zhask/data//catemap/7/user-interface/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Hadoop分布式版本的K-Means?_Hadoop_K Means - Fatal编程技术网

Hadoop分布式版本的K-Means?

Hadoop分布式版本的K-Means?,hadoop,k-means,Hadoop,K Means,想知道Hadoop分布式版本的K-Means是否有开源实现?要求使用Hadoop,因为数据很大,不能放在一个盒子里 提前感谢,, Lin是的,有,mahout有几个k-means实现,例如:mahout.apache.org/users/clustering/k-means-clustering.html是的,有,mahout有几个k-means实现,例如:mahout.apache.org/users/clustering/k-means-clustering.html您可以用于此。火花工具。

想知道Hadoop分布式版本的K-Means是否有开源实现?要求使用Hadoop,因为数据很大,不能放在一个盒子里

提前感谢,,
Lin

是的,有,mahout有几个k-means实现,例如:mahout.apache.org/users/clustering/k-means-clustering.html

是的,有,mahout有几个k-means实现,例如:mahout.apache.org/users/clustering/k-means-clustering.html

您可以用于此。火花工具。Spark使用RDD(弹性分布式数据集)。数据分布在集群上,每个节点处理最近的数据

Spark的性能可能比Mahout更好,因为一些中间过程没有写在HDFS上。

您可以使用它。火花工具。Spark使用RDD(弹性分布式数据集)。数据分布在集群上,每个节点处理最近的数据


Spark的性能可能比Mahout更好,因为一些中间过程没有写在HDFS上。

是的,有,Mahout有几个k-均值实现,例如:是的,有,Mahout有几个k-均值实现,例如:性能太差了,在一台主机上运行快速的k-means实现几乎总是比支付Mahout和Hadoop的巨大开销更快。。。(如果您的数据适合主内存,请不要使用Hadoop)但是性能非常差,在单个主机上运行快速k-means实现几乎总是比在Mahout和Hadoop上花费大量开销更快。。。(如果您的数据适合主内存,请不要使用Hadoop)