Python K-均值算法合适吗?

Python K-均值算法合适吗?,python,machine-learning,data-analysis,Python,Machine Learning,Data Analysis,我正在编写一个python脚本来分析从设备捕获的一些数据。我想自动完成查找数据是否与特定模式匹配的任务。在下面给出的图像中,我想确定在给定的捕获数据集中,我是否可以使用脚本将我的数据分类为3个不同的集群[如图所示]。这些簇的范围不是预定义的。我想知道的是,我是否在数据中看到了三个不同的集群,它们彼此之间有合理的距离——如果没有,那么我的测试就失败了。我只是想弄清楚这里使用的最佳数据分析算法是什么。我读过关于聚类算法的书,打算从K-means聚类开始,但有谁有更好的主意吗 [链接到捕获数据的示例

我正在编写一个python脚本来分析从设备捕获的一些数据。我想自动完成查找数据是否与特定模式匹配的任务。在下面给出的图像中,我想确定在给定的捕获数据集中,我是否可以使用脚本将我的数据分类为3个不同的集群[如图所示]。这些簇的范围不是预定义的。我想知道的是,我是否在数据中看到了三个不同的集群,它们彼此之间有合理的距离——如果没有,那么我的测试就失败了。我只是想弄清楚这里使用的最佳数据分析算法是什么。我读过关于聚类算法的书,打算从K-means聚类开始,但有谁有更好的主意吗


[链接到捕获数据的示例集-注意颜色编码的簇][1]

更好的方法是从一个好的问题陈述开始。如果你不能严格定义你要找的东西,那么没有合适的方法。如果你能准确地写下你需要什么,那么你就可以寻找解决方案。聚类方法是非常奇怪的对象,它们总是“成功”的,它们总是以一种人类完全无法接受的方式对数据进行聚类。如果您的数据看起来像是您绘制的(这是2d情况,点是“密集”点云的一部分),那么最合适的方法似乎是DBScan/Optics,这是一种非常简单的方法,它将产生更“人性化”的聚类(与k-means相反,k-means不会将您的数据划分为这些“云”,而是经常将其分割)