Python 3.x 即使我不想预测任何东西，我也需要K-means聚类的测试序列分割吗？_Python 3.x_Machine Learning_Cluster Analysis_K Means

Python 3.x 即使我不想预测任何东西，我也需要K-means聚类的测试序列分割吗？

python-3.x machine-learning

Python 3.x 即使我不想预测任何东西，我也需要K-means聚类的测试序列分割吗？,python-3.x,machine-learning,cluster-analysis,k-means,Python 3.x,Machine Learning,Cluster Analysis,K Means,我有一组2000点，基本上是从联盟足球传来的传球的x，y坐标。我想在它上面运行一个k-means聚类算法，对它进行分类，得到哪10个过程是最常见的k=10。然而，我不想预测未来价值的任何点。我只是想处理现有的数据。我还需要将其拆分为测试训练集吗？我假设只有当我们想在特定的集合上训练模型以计算未来的值时，才会进行这些操作作为一个整体，我对集群和Python还不熟悉，所以如果有任何帮助，我将不胜感激否，在聚类（即无监督学习）中，您不需要分割数据我不同意答案。聚类作为一种度量具有准确性。如果您不将

我有一组2000点，基本上是从联盟足球传来的传球的x，y坐标。我想在它上面运行一个k-means聚类算法，对它进行分类，得到哪10个过程是最常见的k=10。然而，我不想预测未来价值的任何点。我只是想处理现有的数据。我还需要将其拆分为测试训练集吗？我假设只有当我们想在特定的集合上训练模型以计算未来的值时，才会进行这些操作

作为一个整体，我对集群和Python还不熟悉，所以如果有任何帮助，我将不胜感激

否，在聚类（即无监督学习）中，您不需要分割数据

我不同意答案。聚类作为一种度量具有准确性。如果您不将数据拆分为训练和测试，那么很可能是模型拟合过度。看这些类似的问题。请注意，将数据拆分为列车/测试集与监督或非监督问题无关

你能解释一下原因吗？我和比我聪明得多的人交谈过，他们都说测试/培训是必须的，但这对我来说似乎并不明显，因为我是新手。我主要是在了解了到底发生了什么事情背后的“为什么”和“如何”之后。大多数情况下，“为什么”只是问问你自己，聚类是什么类型的算法？它是无监督的，所以分割数据的意义是什么，即您不能使用测试数据来验证模型，因为您没有目标标签。这在监督学习中是不同的，你有带标签的样本。非常感谢。我想我现在明白了。你能解释一下，拆分成测试/训练集与有监督或无监督的问题无关吗？我以为你只能在监督学习中训练模型。这不准确吗？@Abhishek似乎你的基本原理不正确。你的问题是关于模型制作的。可以使用有监督/无监督的方法建立模型。在构建模型时，必须确保模型正常工作。因此，如果您不分割数据，在整个数据集上训练模型，并在同一数据集上再次测试，那么您的模型将过拟合，因为它已经看到了完整的数据。阅读关键是它是有监督的还是无监督的，你必须评估模型。聚类算法的准确性是根据簇间距离和簇内距离来衡量的，想听听你的工作示例吗，拆分如何有助于衡量准确性？@kiruparan balachandran万维网是你的朋友！到处都是例子。努力找出并研究它。若你们不能，那个么至少读一下我之前对集群评估指标的评论吧！是的，我做了，请您去阅读每个评估指标，并了解其工作原理，以供参考，在大多数评估指标中，您会发现这句话。这些指标需要了解基本真理类，但在实践中几乎不可用，或者在监督学习环境中，需要人工注释员手动指定。