Hadoop中的Mahout并行k-means_Hadoop_Mahout

Hadoop中的Mahout并行k-means

hadoop

Hadoop中的Mahout并行k-means,hadoop,mahout,Hadoop,Mahout,是否可以使用Hadoop并行（多核）运行Mahout？怎么做 Mahout使用Hadoop运行，但它只使用一个CPU： mahout org.apache.mahout.clustering.syntheticcontrol.kmeans.Job --input testdata --output end1200_50 --numClusters 1200 --t1 1000 --t2 500 --maxIter 50 Running on hadoop, using /usr/local/ha

是否可以使用Hadoop并行（多核）运行Mahout？怎么做

Mahout使用Hadoop运行，但它只使用一个CPU：

mahout org.apache.mahout.clustering.syntheticcontrol.kmeans.Job --input testdata --output end1200_50 --numClusters 1200 --t1 1000 --t2 500 --maxIter 50
Running on hadoop, using /usr/local/hadoop/bin/hadoop and HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop
MAHOUT-JOB: /usr/local/mahout/mahout-examples-0.10.1-job.jar
[...]

我的文件位于HDFS

hadoop fs-ls/user/root/testdata

Found 12 items
-rw-r--r--   1 root supergroup  373560731 2015-06-26 07:51 /user/root/testdata/16773m.mat.txt
-rw-r--r--   1 root supergroup  373819865 2015-06-26 07:51 /user/root/testdata/16786m.mat.txt
[...]

my mapred-site.xml

<configuration>
 <property>
  <name>mapred.job.tracker</name>
  <value>localhost:54311</value>
 </property>


 <property>
  <name>mapred.tasktracker.map.tasks.maximum</name>
  <value>14</value>
 </property>

 <property>
  <name>mapred.tasktracker.map.tasks.maximum</name>
  <value>4</value>
 </property>

 <property>
  <name>mapred.child.java.opts</name>
  <value>-Xmx7000M</value>
 </property>
</configuration>


mapred.job.tracker
本地主机：54311
mapred.tasktracker.map.tasks.max
14
mapred.tasktracker.map.tasks.max
4.
mapred.child.java.opts
-XMX7000米

您的数据可能未正确分割。但要确保使用其他工具进行基准测试。我发现Mahout k-means的速度非常慢！谢谢你的“Anony Mouse”。我所有的文件都在500MB左右。你推荐模糊k-均值吗？或者你的意思是使用其他东西而不是Mahout？500 MB，很容易放入主内存。使用任何快速的东西，而不是Hadoop。