Algorithm 机器学习聚类算法:k-均值和高斯混合

Algorithm 机器学习聚类算法:k-均值和高斯混合,algorithm,machine-learning,artificial-intelligence,computer-science,Algorithm,Machine Learning,Artificial Intelligence,Computer Science,假设我们使用两种不同的聚类算法对一组N个数据点进行聚类:k-均值和高斯混合。在这两种情况下,我们得到了5个簇,在这两种情况下,簇的中心完全相同。在kmeans解决方案中分配给不同簇的3个点能否在高斯混合解决方案中分配给同一簇?如果没有,请解释。如果是这样,请用1-2句话描述一个例子或解释。根据我对机器学习理论的理解,高斯混合模型(GMM)和K-Means在基本设置上有所不同,即K-Means是一种硬聚类算法,而GMM是一种软聚类算法。K-Means会将每个点分配给一个簇,而GMM会给出一个概率分

假设我们使用两种不同的聚类算法对一组N个数据点进行聚类:k-均值和高斯混合。在这两种情况下,我们得到了5个簇,在这两种情况下,簇的中心完全相同。在kmeans解决方案中分配给不同簇的3个点能否在高斯混合解决方案中分配给同一簇?如果没有,请解释。如果是这样,请用1-2句话描述一个例子或解释。

根据我对机器学习理论的理解,高斯混合模型(GMM)和K-Means在基本设置上有所不同,即K-Means是一种硬聚类算法,而GMM是一种软聚类算法。K-Means会将每个点分配给一个簇,而GMM会给出一个概率分布,即该点属于5个簇中每个簇的概率是多少。此外,这还取决于GMM使用的参数类型。如果使用常数方差,GMM可能会产生一些类似于K-均值的聚类

现在,我不确定这一点,因为您需要提供更多关于如何从GMM中挑选硬集群以及如何计算集群中心的信息。如果您只是基于概率最大的集群从GMM进行硬分配,那么它们可能被分配到相同的集群。在我看来,只有当数据点很容易分离,并且GMM假设方差为常数时,这才有可能

至于集群中心,这取决于计算它们的方式。如果您使用的是从GMM获得的平均向量,那么K-Means和GMM不太可能给出相同的聚类中心。另一方面,如果您首先生成如上所述的硬聚类,然后自己计算中心,那么当所有点的硬聚类在K均值和GMM中都相同时,它们可能具有相同的中心


我认为你应该提供更多关于你这样做的信息,以便社区成员能够更好地帮助你。此外,您还应该很好地识别您的用例,并决定您需要硬集群还是软集群。仅当您希望软聚类和/或您事先认为您的数据点是根据每个聚类的高斯分布生成的时,才选择GMM。

当然,它们可以生成相同的聚类分配,这取决于数据和初始条件。这可能在计算机科学stack上做得更好。我投票将这个问题作为离题题结束,因为它属于另一个stack exchange站点:@BenKnoble,如果你建议另一个站点,请确保向海报解释,他们不应该在多个SE站点上发布相同的问题:这违反了站点规则,只会给他们带来麻烦。(另外:由于有关问题转储的政策,这个问题根本不适合CS.SE。)@Joce,见上文——如果你建议另一个网站,请确保向海报解释,他们不应该在多个SE网站上发布相同的问题:这违反了网站规则,只会给他们带来麻烦。