Scala ApacheSpark中具有分类和数字特征的数据聚类_Scala_Apache Spark_Apache Spark Mllib

Scala ApacheSpark中具有分类和数字特征的数据聚类

scala apache-spark

Scala ApacheSpark中具有分类和数字特征的数据聚类,scala,apache-spark,apache-spark-mllib,Scala,Apache Spark,Apache Spark Mllib,我目前正在ApacheSpark（Scala/Java）中寻找一种能够对具有数字和分类特性的数据进行集群的算法就我所见，pyspark（）有一个k-medoids和k-Prototype的实现，但我无法为我目前使用的Scala/Java版本找到类似的东西对于运行Scala的Spark，是否有其他推荐算法可以实现类似的功能？还是我忽略了一些东西，实际上可以在Scala项目中使用pyspark库如果您需要进一步的信息或澄清，请随时询问。我认为您需要首先使用将分类变量转换为数字，然后使用mlli

我目前正在ApacheSpark（Scala/Java）中寻找一种能够对具有数字和分类特性的数据进行集群的算法

就我所见，pyspark（）有一个k-medoids和k-Prototype的实现，但我无法为我目前使用的Scala/Java版本找到类似的东西

对于运行Scala的Spark，是否有其他推荐算法可以实现类似的功能？还是我忽略了一些东西，实际上可以在Scala项目中使用pyspark库

如果您需要进一步的信息或澄清，请随时询问。

我认为您需要首先使用将分类变量转换为数字，然后使用mllib应用您的聚类算法（例如）。此外，我建议在应用集群算法之前进行此操作，因为它对距离敏感

Spark有K-means用于聚类数据，这不符合你的需要吗？@dumitru就我的研究而言，kMeans不适合分类数据-即使你将它们转换为数值，结果也没有那么有意义。一个处理分类变量的热编码是一个可怕的想法。Gowers距离是一个更好的方法。可与K-Prototype或PAM一起使用