Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark spark中的可伸缩聚类算法_Apache Spark_Machine Learning_Cluster Analysis_Yarn_Hadoop2 - Fatal编程技术网

Apache spark spark中的可伸缩聚类算法

Apache spark spark中的可伸缩聚类算法,apache-spark,machine-learning,cluster-analysis,yarn,hadoop2,Apache Spark,Machine Learning,Cluster Analysis,Yarn,Hadoop2,我有70000个元素,这些元素必须用于无监督学习我也尝试过使用ding作业,我尝试过使用K-means和对分K-means来运行作业,我使用TF-IDF创建算法的输入RDD,我还尝试过使用维度约简,特别是SVD和PCA,但约简不起作用,我总是遇到堆空间问题,这是我的配置: spark-submit \ --class myclass \ --master yarn \ --deploy-mode cluster \ --driver-memory 1000mb \ --executor-memo

我有70000个元素,这些元素必须用于无监督学习我也尝试过使用ding作业,我尝试过使用K-means和对分K-means来运行作业,我使用TF-IDF创建算法的输入RDD,我还尝试过使用维度约简,特别是SVD和PCA,但约简不起作用,我总是遇到堆空间问题,这是我的配置:

spark-submit \
--class myclass \
--master yarn \
--deploy-mode cluster \
--driver-memory 1000mb \
--executor-memory 1000mb \
--num-executors 5 \
--driver-java-options "-Dcommons.config.resource=configs/homolog-       jobs.properties -Dhbase.build.file.location=PATH" 
--conf 'spark.executor.extraJavaOptions=- Dcommons.config.resource=configs/homolog-jobs.properties -Dhbase.build.file.location=PATH' \
--conf 'spark.driver.extraJavaOptions=-Dcommons.config.resource=configs/homolog-jobs.properties -Dhbase.build.file.location=PATH' \
/path to my jar \
10 (number of cluster)

Spark集群非常糟糕。使用其他工具,如ELKI,您将对性能差异感到惊讶!谢谢你的回答,关于elki,我可以在生产中使用这个工具吗?我可以将Elki与Hortonworks数据平台集成吗?Elki是可伸缩的?群集从来都不是可伸缩的,也从来都不是可集成的,因为它太不可靠了。运行一次可能会得到一个好结果,下周在新数据上运行可能会失败。它并不意味着自动使用。好的,Anony Mouse,再次感谢,我会尝试其他解决方案。Spark集群非常糟糕。使用其他工具,如ELKI,您将对性能差异感到惊讶!谢谢你的回答,关于elki,我可以在生产中使用这个工具吗?我可以将Elki与Hortonworks数据平台集成吗?Elki是可伸缩的?群集从来都不是可伸缩的,也从来都不是可集成的,因为它太不可靠了。运行一次可能会得到一个好结果,下周在新数据上运行可能会失败。它不是自动使用的。好的,Anony Mouse,再次感谢,我会尝试其他解决方案。