Machine learning K-均值：只有两个最优聚类_Machine Learning_Statistics_Cluster Analysis_Modeling

Machine learning K-均值：只有两个最优聚类

machine-learning statistics

Machine learning K-均值：只有两个最优聚类,machine-learning,statistics,cluster-analysis,modeling,Machine Learning,Statistics,Cluster Analysis,Modeling,我在R中运行一个k-means算法，试图找到最佳的聚类数k。使用轮廓法、间隙统计法和肘部法，我确定最佳簇数为2。虽然没有预定义的业务集群，但我担心k=2不是很有见地，这导致我提出了几个问题 1就数据的自然聚类而言，最佳k=2意味着什么？这是否意味着可能没有清晰的集群，或者没有集群比任何集群更好 2当k=2时，R平方较低。1。当k=5时，R平方更好。在知道k=5不是最佳值的情况下，选择k=5的确切权衡是什么？是否可以增加集群，但它们可能不够清晰 3我的n=1000，我有100个变量可供选择，但仅从

我在R中运行一个k-means算法，试图找到最佳的聚类数k。使用轮廓法、间隙统计法和肘部法，我确定最佳簇数为2。虽然没有预定义的业务集群，但我担心k=2不是很有见地，这导致我提出了几个问题

1就数据的自然聚类而言，最佳k=2意味着什么？这是否意味着可能没有清晰的集群，或者没有集群比任何集群更好

2当k=2时，R平方较低。1。当k=5时，R平方更好。在知道k=5不是最佳值的情况下，选择k=5的确切权衡是什么？是否可以增加集群，但它们可能不够清晰

3我的n=1000，我有100个变量可供选择，但仅从领域知识中选择了5个。增加变量的数量必然会使聚类更好吗

4作为问题3的后续，如果引入变量并降低R平方，那么该变量的含义是什么

我不是专家，但我会尽力回答：

1您的最佳聚类数方法为您提供了k=2，因此这表明存在明显的聚类，该数值仅为低2。为了帮助解决这个问题，请尝试使用您对该领域的知识来帮助解释，在您的领域中，两个集群是否有意义

是的，你是对的。就R平方而言，最佳的解决方案是拥有与数据点一样多的集群，但就为什么要使用k均值而言，这并不是最佳的。你在做k-means是为了从数据中获得更深刻的信息，这是你的主要目标。因此，如果您选择k=5，您的数据将更适合您的5个集群，但正如您所说，它们之间可能没有太大区别，因此您无法获得任何洞察力

3不一定，事实上，盲目添加可能会使情况变得更糟。K-means在欧几里德空间中运行，因此在确定聚类时，每个变量都被赋予了一个均匀的权重。如果添加不相关的变量，它们的值仍然会扭曲n-d空间，从而使集群变得更糟

4仔细检查我的逻辑，我不是100%同意这一点，如果一个变量被引入到相同数量的集群，它会降低R平方，那么是的，它是一个有用的变量，可以添加，这意味着它与其他变量有相关性

谢谢。为了澄清第4点，你是说添加变量很有用，因为它们是相关的？我认为其目的是减少模型中相关变量的数量，以便不对某些功能赋予太多的权重。对不起，你说得绝对正确。我的意思是说，你正在使现有集群更加清晰，因此你正在添加有用的信息。改进预处理和距离功能。你能详细说明一下吗？如何改进预处理？我已经缩放了我的变量。预处理是一门艺术。你需要花很多时间在这上面，仔细研究数据。仅仅缩放是远远不够的。@Anony Mouse您能澄清一下或告诉我有关预处理的资源吗？我不知道你到底是什么意思，我不知道什么好的。数据清理和准备是一门艺术。