Python 3.x 即使我不想预测任何东西,我也需要K-means聚类的测试序列分割吗?

Python 3.x 即使我不想预测任何东西,我也需要K-means聚类的测试序列分割吗?,python-3.x,machine-learning,cluster-analysis,k-means,Python 3.x,Machine Learning,Cluster Analysis,K Means,我有一组2000点,基本上是从联盟足球传来的传球的x,y坐标。我想在它上面运行一个k-means聚类算法,对它进行分类,得到哪10个过程是最常见的k=10。然而,我不想预测未来价值的任何点。我只是想处理现有的数据。我还需要将其拆分为测试训练集吗?我假设只有当我们想在特定的集合上训练模型以计算未来的值时,才会进行这些操作 作为一个整体,我对集群和Python还不熟悉,所以如果有任何帮助,我将不胜感激 否,在聚类(即无监督学习)中,您不需要分割数据我不同意答案。聚类作为一种度量具有准确性。如果您不将

我有一组2000点,基本上是从联盟足球传来的传球的x,y坐标。我想在它上面运行一个k-means聚类算法,对它进行分类,得到哪10个过程是最常见的k=10。然而,我不想预测未来价值的任何点。我只是想处理现有的数据。我还需要将其拆分为测试训练集吗?我假设只有当我们想在特定的集合上训练模型以计算未来的值时,才会进行这些操作
作为一个整体,我对集群和Python还不熟悉,所以如果有任何帮助,我将不胜感激

否,在聚类(即无监督学习)中,您不需要分割数据

我不同意答案。聚类作为一种度量具有准确性。如果您不将数据拆分为训练和测试,那么很可能是模型拟合过度。看这些类似的问题。请注意,将数据拆分为列车/测试集与监督或非监督问题无关

你能解释一下原因吗?我和比我聪明得多的人交谈过,他们都说测试/培训是必须的,但这对我来说似乎并不明显,因为我是新手。我主要是在了解了到底发生了什么事情背后的“为什么”和“如何”之后。大多数情况下,“为什么”只是问问你自己,聚类是什么类型的算法?它是无监督的,所以分割数据的意义是什么,即您不能使用测试数据来验证模型,因为您没有目标标签。这在监督学习中是不同的,你有带标签的样本。非常感谢。我想我现在明白了。你能解释一下,拆分成测试/训练集与有监督或无监督的问题无关吗?我以为你只能在监督学习中训练模型。这不准确吗?@Abhishek似乎你的基本原理不正确。你的问题是关于模型制作的。可以使用有监督/无监督的方法建立模型。在构建模型时,必须确保模型正常工作。因此,如果您不分割数据,在整个数据集上训练模型,并在同一数据集上再次测试,那么您的模型将过拟合,因为它已经看到了完整的数据。阅读关键是它是有监督的还是无监督的,你必须评估模型。聚类算法的准确性是根据簇间距离和簇内距离来衡量的,想听听你的工作示例吗,拆分如何有助于衡量准确性?@kiruparan balachandran万维网是你的朋友!到处都是例子。努力找出并研究它。若你们不能,那个么至少读一下我之前对集群评估指标的评论吧!是的,我做了,请您去阅读每个评估指标,并了解其工作原理,以供参考,在大多数评估指标中,您会发现这句话。这些指标需要了解基本真理类,但在实践中几乎不可用,或者在监督学习环境中,需要人工注释员手动指定。