Machine learning K-均值:只有两个最优聚类

Machine learning K-均值:只有两个最优聚类,machine-learning,statistics,cluster-analysis,modeling,Machine Learning,Statistics,Cluster Analysis,Modeling,我在R中运行一个k-means算法,试图找到最佳的聚类数k。使用轮廓法、间隙统计法和肘部法,我确定最佳簇数为2。虽然没有预定义的业务集群,但我担心k=2不是很有见地,这导致我提出了几个问题 1就数据的自然聚类而言,最佳k=2意味着什么?这是否意味着可能没有清晰的集群,或者没有集群比任何集群更好 2当k=2时,R平方较低。1。当k=5时,R平方更好。在知道k=5不是最佳值的情况下,选择k=5的确切权衡是什么?是否可以增加集群,但它们可能不够清晰 3我的n=1000,我有100个变量可供选择,但仅从

我在R中运行一个k-means算法,试图找到最佳的聚类数k。使用轮廓法、间隙统计法和肘部法,我确定最佳簇数为2。虽然没有预定义的业务集群,但我担心k=2不是很有见地,这导致我提出了几个问题

1就数据的自然聚类而言,最佳k=2意味着什么?这是否意味着可能没有清晰的集群,或者没有集群比任何集群更好

2当k=2时,R平方较低。1。当k=5时,R平方更好。在知道k=5不是最佳值的情况下,选择k=5的确切权衡是什么?是否可以增加集群,但它们可能不够清晰

3我的n=1000,我有100个变量可供选择,但仅从领域知识中选择了5个。增加变量的数量必然会使聚类更好吗


4作为问题3的后续,如果引入变量并降低R平方,那么该变量的含义是什么

我不是专家,但我会尽力回答:

1您的最佳聚类数方法为您提供了k=2,因此这表明存在明显的聚类,该数值仅为低2。为了帮助解决这个问题,请尝试使用您对该领域的知识来帮助解释,在您的领域中,两个集群是否有意义

是的,你是对的。就R平方而言,最佳的解决方案是拥有与数据点一样多的集群,但就为什么要使用k均值而言,这并不是最佳的。你在做k-means是为了从数据中获得更深刻的信息,这是你的主要目标。因此,如果您选择k=5,您的数据将更适合您的5个集群,但正如您所说,它们之间可能没有太大区别,因此您无法获得任何洞察力

3不一定,事实上,盲目添加可能会使情况变得更糟。K-means在欧几里德空间中运行,因此在确定聚类时,每个变量都被赋予了一个均匀的权重。如果添加不相关的变量,它们的值仍然会扭曲n-d空间,从而使集群变得更糟


4仔细检查我的逻辑,我不是100%同意这一点,如果一个变量被引入到相同数量的集群,它会降低R平方,那么是的,它是一个有用的变量,可以添加,这意味着它与其他变量有相关性

谢谢。为了澄清第4点,你是说添加变量很有用,因为它们是相关的?我认为其目的是减少模型中相关变量的数量,以便不对某些功能赋予太多的权重。对不起,你说得绝对正确。我的意思是说,你正在使现有集群更加清晰,因此你正在添加有用的信息。改进预处理和距离功能。你能详细说明一下吗?如何改进预处理?我已经缩放了我的变量。预处理是一门艺术。你需要花很多时间在这上面,仔细研究数据。仅仅缩放是远远不够的。@Anony Mouse您能澄清一下或告诉我有关预处理的资源吗?我不知道你到底是什么意思,我不知道什么好的。数据清理和准备是一门艺术。