Machine learning 聚类基线比较_Machine Learning_Cluster Analysis

Machine learning 聚类基线比较

machine-learning

Machine learning 聚类基线比较,machine-learning,cluster-analysis,Machine Learning,Cluster Analysis,我正在研究一种算法，可以猜测K表示kmeans聚类。我想我正在寻找一个可以用作比较的数据集，或者一些集群数量“已知”的数据集，这样我就可以看到我的算法在猜测K时的表现。我首先要检查UCI存储库中的数据集：我相信有一些在那里与标签有一些文本聚类数据集经常在报纸中用作基线，例如20个新闻组：另一个伟大的方法（我的论文主席一直提倡的方法）是构建自己的小示例数据集。最好的方法是从小事做起，尝试一些只有两到三个变量可以用图形表示的东西，然后自己标记集群小型自制数据集的另一个好处是，您知道答案，

我正在研究一种算法，可以猜测K表示kmeans聚类。我想我正在寻找一个可以用作比较的数据集，或者一些集群数量“已知”的数据集，这样我就可以看到我的算法在猜测K时的表现。

我首先要检查UCI存储库中的数据集：

我相信有一些在那里与标签

有一些文本聚类数据集经常在报纸中用作基线，例如20个新闻组：

另一个伟大的方法（我的论文主席一直提倡的方法）是构建自己的小示例数据集。最好的方法是从小事做起，尝试一些只有两到三个变量可以用图形表示的东西，然后自己标记集群

小型自制数据集的另一个好处是，您知道答案，对调试非常有用。

由于您关注的是

-方法，您是否考虑过使用各种度量（剪影、戴维斯-博尔丁等）来找到最佳

实际上，“最优”k可能不是一个好的选择。大多数情况下，人们确实希望选择一个更大的k，然后更详细地分析结果集群/原型，用多个k-means分区构建集群。

这是一个很好的开始，集群可以很好地工作

下载

但是自制的合成数据集在准确性/收敛性问题上不会被认真考虑。rano，但是如果你想找到K的最佳值，你真的需要逐案进行。我正在研究一种确定K的低成本方法。我们必须能够处理TBs的数据，因此它必须是快速和可并行的。这些方法似乎牺牲了性能而有利于准确性。您仍然可以使用它们来验证您的启发式算法是否可以执行。另外，TBs上的k-means实际上没有多大意义。在1%（或更少）的样本上运行它，您将得到基本相同的结果。这是统计数字。更多数据只会更改最后几个数字，除非您有偏差。如果您的代码不好，您甚至可能会遇到完整数据集的数字问题。。。