如何在Scala/Spark 2.2.0中查找k中的silhoutte意味着聚类_Scala_Apache Spark_Machine Learning_K Means

如何在Scala/Spark 2.2.0中查找k中的silhoutte意味着聚类

scala apache-spark machine-learning

如何在Scala/Spark 2.2.0中查找k中的silhoutte意味着聚类,scala,apache-spark,machine-learning,k-means,Scala,Apache Spark,Machine Learning,K Means,我一直在使用spark 2.2.0在scala中对数据集进行聚类。现在我已经做了聚类，我想测试/评估它的质量。虽然我已经能够找到每个K值的误差平方和的集合，但我希望做一个轮廓测试。任何人都可以在scala中帮助共享相关功能和软件包。剪影不可扩展。它使用成对距离，这将始终需要O（n^2）时间来计算您是否考虑过使用已经在MLlib中实现的Set Sum of Squared Errors（），这也可以帮助确定集群的数量。（）是的，我已经计算并找到了一个K值，该值在WSSSE的基础上是理想的，与上面

我一直在使用spark 2.2.0在scala中对数据集进行聚类。现在我已经做了聚类，我想测试/评估它的质量。虽然我已经能够找到每个K值的误差平方和的集合，但我希望做一个轮廓测试。任何人都可以在scala中帮助共享相关功能和软件包。

剪影不可扩展。它使用成对距离，这将始终需要O（n^2）时间来计算

您是否考虑过使用已经在MLlib中实现的Set Sum of Squared Errors（），这也可以帮助确定集群的数量。（）

是的，我已经计算并找到了一个K值，该值在WSSSE的基础上是理想的，与上面链接中所写的完全相同，但我想知道一些其他的东西，因为我对原始数据和规范化数据使用了相同的K值，但是标准化数据的WSSSE太高了。所以我想知道我是否可以检查silhoutte。有没有别的办法到1。检查簇的质量，并在不使用WSSSE 2的情况下计算K值。确定在K值不变的情况下，归一化数据和原始数据显示相同WSSSE值的方式？我们将高度赞赏这方面的任何其他相关建议。我正在对近500万行数据进行聚类。