Scala ApacheSpark中具有分类和数字特征的数据聚类

Scala ApacheSpark中具有分类和数字特征的数据聚类,scala,apache-spark,apache-spark-mllib,Scala,Apache Spark,Apache Spark Mllib,我目前正在ApacheSpark(Scala/Java)中寻找一种能够对具有数字和分类特性的数据进行集群的算法 就我所见,pyspark()有一个k-medoids和k-Prototype的实现,但我无法为我目前使用的Scala/Java版本找到类似的东西 对于运行Scala的Spark,是否有其他推荐算法可以实现类似的功能?还是我忽略了一些东西,实际上可以在Scala项目中使用pyspark库 如果您需要进一步的信息或澄清,请随时询问。我认为您需要首先使用将分类变量转换为数字,然后使用mlli

我目前正在ApacheSpark(Scala/Java)中寻找一种能够对具有数字和分类特性的数据进行集群的算法

就我所见,pyspark()有一个k-medoids和k-Prototype的实现,但我无法为我目前使用的Scala/Java版本找到类似的东西

对于运行Scala的Spark,是否有其他推荐算法可以实现类似的功能?还是我忽略了一些东西,实际上可以在Scala项目中使用pyspark库


如果您需要进一步的信息或澄清,请随时询问。

我认为您需要首先使用将分类变量转换为数字,然后使用mllib应用您的聚类算法(例如)。此外,我建议在应用集群算法之前进行此操作,因为它对距离敏感

Spark有K-means用于聚类数据,这不符合你的需要吗?@dumitru就我的研究而言,kMeans不适合分类数据-即使你将它们转换为数值,结果也没有那么有意义。一个处理分类变量的热编码是一个可怕的想法。Gowers距离是一个更好的方法。可与K-Prototype或PAM一起使用