Statistics 相关变量聚类

Statistics 相关变量聚类,statistics,cluster-analysis,Statistics,Cluster Analysis,我在做聚类分析。有很多变量是相互关联的。我想知道,包含相关变量可以吗?在这种情况下怎么办 提前感谢首先,显而易见的方法是: 评估您是否需要所有这些,或者是否可以放弃其中一些 Whiten通过PCA对数据进行去相关处理,这是k-means的最佳实践 其次,您可能希望研究相关性聚类,它试图识别在数据集中表现出不同相关性的聚类。如果数据不是全局相关的,则增白不会删除这些局部相关性。相关性聚类旨在发现这些模式。如果变量高度相关,建议删除它们 无论采用何种聚类算法或链接方法,您通常遵循的一件事是查找点之间

我在做聚类分析。有很多变量是相互关联的。我想知道,包含相关变量可以吗?在这种情况下怎么办


提前感谢

首先,显而易见的方法是:

评估您是否需要所有这些,或者是否可以放弃其中一些

Whiten通过PCA对数据进行去相关处理,这是k-means的最佳实践


其次,您可能希望研究相关性聚类,它试图识别在数据集中表现出不同相关性的聚类。如果数据不是全局相关的,则增白不会删除这些局部相关性。相关性聚类旨在发现这些模式。

如果变量高度相关,建议删除它们

无论采用何种聚类算法或链接方法,您通常遵循的一件事是查找点之间的距离。保持高度相关的变量几乎就是给它们更多的权重,在计算两点之间的距离时,权重增加一倍。因为所有变量都是标准化的,所以效果通常是双倍的


总之,影响团簇形成的变量强度增加

你可以在聚类之前在数据集上运行PCA来去除线性相关性。我从来没有使用过PCA,这种方法会去除相关变量吗?你能详细说明一下吗?我从来没有使用过PCA,这种方法会选择不相关的数据吗?PCA不会选择数据。它计算投影矩阵,这样在投影数据之后,协方差矩阵就是单位矩阵。如果您的数据已经不相关,PCA可能会将身份矩阵作为投影返回。您的意思是,我可以使用PCA选择不相关的变量?PCA不选择变量。它使用矩阵乘法投影数据。显然,矩阵乘法与选择特征不同。