Algorithm 选择k均值中的聚类数

Algorithm 选择k均值中的聚类数,algorithm,matlab,Algorithm,Matlab,我想对一个大样本数据进行聚类,为此我在MATLAB中使用了k均值函数。问题是它返回一个矩阵,其中所有数据按我指定的集群数量排序 我怎样才能知道哪几个集群是最佳的 我想,如果我能在每个集群中获得相同数量的元素,那将是最优的,但这永远不会发生。相反,它可以继续为我输入的任何数字对数据进行聚类 请帮助…我读到了,我认为答案可能是:-在kmeans中,我们正试图根据数据出现的方式对数据进行分区,因此理论上我们最好的数据集应该是每个分区具有相同数量的数据 我使用了kmeans++这是一个比kmeans更好

我想对一个大样本数据进行聚类,为此我在MATLAB中使用了k均值函数。问题是它返回一个矩阵,其中所有数据按我指定的集群数量排序

我怎样才能知道哪几个集群是最佳的

我想,如果我能在每个集群中获得相同数量的元素,那将是最优的,但这永远不会发生。相反,它可以继续为我输入的任何数字对数据进行聚类


请帮助…

我读到了,我认为答案可能是:-在kmeans中,我们正试图根据数据出现的方式对数据进行分区,因此理论上我们最好的数据集应该是每个分区具有相同数量的数据


我使用了kmeans++这是一个比kmeans更好的算法,因为它不会初始化一个随机值,然后迭代分区的数量,直到分区的大小几乎相等。这是一个大概的数字,比如说第三组我得到21807291219,第四组我得到302422,1556120所以我选择了3作为我的最终答案………..

我读到了,我认为答案可能是:-在kmeans中,我们试图根据数据的平均值对数据进行分区,因此理论上我们最好的数据集应该是每个分区具有相同数量的数据

我使用了kmeans++这是一个比kmeans更好的算法,因为它不会初始化一个随机值,然后迭代分区的数量,直到分区的大小几乎相等。这是一个近似的数字,比如说,第3组我得到21807291219,第4组我得到3024221556120,所以我选择了3作为我的最终答案………

@user506710:看一下,获得一些想法。@user506710:看一下,获得一些想法。