如何在Scala/Spark 2.2.0中查找k中的silhoutte意味着聚类

如何在Scala/Spark 2.2.0中查找k中的silhoutte意味着聚类,scala,apache-spark,machine-learning,k-means,Scala,Apache Spark,Machine Learning,K Means,我一直在使用spark 2.2.0在scala中对数据集进行聚类。现在我已经做了聚类,我想测试/评估它的质量。虽然我已经能够找到每个K值的误差平方和的集合,但我希望做一个轮廓测试。任何人都可以在scala中帮助共享相关功能和软件包。剪影不可扩展。它使用成对距离,这将始终需要O(n^2)时间来计算 您是否考虑过使用已经在MLlib中实现的Set Sum of Squared Errors(),这也可以帮助确定集群的数量。()是的,我已经计算并找到了一个K值,该值在WSSSE的基础上是理想的,与上面

我一直在使用spark 2.2.0在scala中对数据集进行聚类。现在我已经做了聚类,我想测试/评估它的质量。虽然我已经能够找到每个K值的误差平方和的集合,但我希望做一个轮廓测试。任何人都可以在scala中帮助共享相关功能和软件包。

剪影不可扩展。它使用成对距离,这将始终需要O(n^2)时间来计算


您是否考虑过使用已经在MLlib中实现的Set Sum of Squared Errors(),这也可以帮助确定集群的数量。()

是的,我已经计算并找到了一个K值,该值在WSSSE的基础上是理想的,与上面链接中所写的完全相同,但我想知道一些其他的东西,因为我对原始数据和规范化数据使用了相同的K值,但是标准化数据的WSSSE太高了。所以我想知道我是否可以检查silhoutte。有没有别的办法到1。检查簇的质量,并在不使用WSSSE 2的情况下计算K值。确定在K值不变的情况下,归一化数据和原始数据显示相同WSSSE值的方式?我们将高度赞赏这方面的任何其他相关建议。我正在对近500万行数据进行聚类。