Statistics 相关变量聚类_Statistics_Cluster Analysis

Statistics 相关变量聚类

statistics

Statistics 相关变量聚类,statistics,cluster-analysis,Statistics,Cluster Analysis,我在做聚类分析。有很多变量是相互关联的。我想知道，包含相关变量可以吗？在这种情况下怎么办提前感谢首先，显而易见的方法是：评估您是否需要所有这些，或者是否可以放弃其中一些 Whiten通过PCA对数据进行去相关处理，这是k-means的最佳实践其次，您可能希望研究相关性聚类，它试图识别在数据集中表现出不同相关性的聚类。如果数据不是全局相关的，则增白不会删除这些局部相关性。相关性聚类旨在发现这些模式。如果变量高度相关，建议删除它们无论采用何种聚类算法或链接方法，您通常遵循的一件事是查找点之间

我在做聚类分析。有很多变量是相互关联的。我想知道，包含相关变量可以吗？在这种情况下怎么办

提前感谢

首先，显而易见的方法是：

评估您是否需要所有这些，或者是否可以放弃其中一些

Whiten通过PCA对数据进行去相关处理，这是k-means的最佳实践

其次，您可能希望研究相关性聚类，它试图识别在数据集中表现出不同相关性的聚类。如果数据不是全局相关的，则增白不会删除这些局部相关性。相关性聚类旨在发现这些模式。

如果变量高度相关，建议删除它们

无论采用何种聚类算法或链接方法，您通常遵循的一件事是查找点之间的距离。保持高度相关的变量几乎就是给它们更多的权重，在计算两点之间的距离时，权重增加一倍。因为所有变量都是标准化的，所以效果通常是双倍的

总之，影响团簇形成的变量强度增加

你可以在聚类之前在数据集上运行PCA来去除线性相关性。我从来没有使用过PCA，这种方法会去除相关变量吗？你能详细说明一下吗？我从来没有使用过PCA，这种方法会选择不相关的数据吗？PCA不会选择数据。它计算投影矩阵，这样在投影数据之后，协方差矩阵就是单位矩阵。如果您的数据已经不相关，PCA可能会将身份矩阵作为投影返回。您的意思是，我可以使用PCA选择不相关的变量？PCA不选择变量。它使用矩阵乘法投影数据。显然，矩阵乘法与选择特征不同。