Python K-均值算法合适吗？_Python_Machine Learning_Data Analysis

Python K-均值算法合适吗？

python machine-learning

Python K-均值算法合适吗？,python,machine-learning,data-analysis,Python,Machine Learning,Data Analysis,我正在编写一个python脚本来分析从设备捕获的一些数据。我想自动完成查找数据是否与特定模式匹配的任务。在下面给出的图像中，我想确定在给定的捕获数据集中，我是否可以使用脚本将我的数据分类为3个不同的集群[如图所示]。这些簇的范围不是预定义的。我想知道的是，我是否在数据中看到了三个不同的集群，它们彼此之间有合理的距离——如果没有，那么我的测试就失败了。我只是想弄清楚这里使用的最佳数据分析算法是什么。我读过关于聚类算法的书，打算从K-means聚类开始，但有谁有更好的主意吗 [链接到捕获数据的示例

我正在编写一个python脚本来分析从设备捕获的一些数据。我想自动完成查找数据是否与特定模式匹配的任务。在下面给出的图像中，我想确定在给定的捕获数据集中，我是否可以使用脚本将我的数据分类为3个不同的集群[如图所示]。这些簇的范围不是预定义的。我想知道的是，我是否在数据中看到了三个不同的集群，它们彼此之间有合理的距离——如果没有，那么我的测试就失败了。我只是想弄清楚这里使用的最佳数据分析算法是什么。我读过关于聚类算法的书，打算从K-means聚类开始，但有谁有更好的主意吗

[链接到捕获数据的示例集-注意颜色编码的簇][1]

更好的方法是从一个好的问题陈述开始。如果你不能严格定义你要找的东西，那么没有合适的方法。如果你能准确地写下你需要什么，那么你就可以寻找解决方案。聚类方法是非常奇怪的对象，它们总是“成功”的，它们总是以一种人类完全无法接受的方式对数据进行聚类。如果您的数据看起来像是您绘制的（这是2d情况，点是“密集”点云的一部分），那么最合适的方法似乎是DBScan/Optics，这是一种非常简单的方法，它将产生更“人性化”的聚类（与k-means相反，k-means不会将您的数据划分为这些“云”，而是经常将其分割）