Machine learning 聚类基线比较

Machine learning 聚类基线比较,machine-learning,cluster-analysis,Machine Learning,Cluster Analysis,我正在研究一种算法,可以猜测K表示kmeans聚类。我想我正在寻找一个可以用作比较的数据集,或者一些集群数量“已知”的数据集,这样我就可以看到我的算法在猜测K时的表现。我首先要检查UCI存储库中的数据集: 我相信有一些在那里与标签 有一些文本聚类数据集经常在报纸中用作基线,例如20个新闻组: 另一个伟大的方法(我的论文主席一直提倡的方法)是构建自己的小示例数据集。最好的方法是从小事做起,尝试一些只有两到三个变量可以用图形表示的东西,然后自己标记集群 小型自制数据集的另一个好处是,您知道答案,

我正在研究一种算法,可以猜测K表示kmeans聚类。我想我正在寻找一个可以用作比较的数据集,或者一些集群数量“已知”的数据集,这样我就可以看到我的算法在猜测K时的表现。

我首先要检查UCI存储库中的数据集:

我相信有一些在那里与标签

有一些文本聚类数据集经常在报纸中用作基线,例如20个新闻组:

另一个伟大的方法(我的论文主席一直提倡的方法)是构建自己的小示例数据集。最好的方法是从小事做起,尝试一些只有两到三个变量可以用图形表示的东西,然后自己标记集群


小型自制数据集的另一个好处是,您知道答案,对调试非常有用。

由于您关注的是
k
-方法,您是否考虑过使用各种度量(剪影、戴维斯-博尔丁等)来找到最佳
k

实际上,“最优”k可能不是一个好的选择。大多数情况下,人们确实希望选择一个更大的k,然后更详细地分析结果集群/原型,用多个k-means分区构建集群。

这是一个很好的开始,集群可以很好地工作


下载

但是自制的合成数据集在准确性/收敛性问题上不会被认真考虑。rano,但是如果你想找到K的最佳值,你真的需要逐案进行。我正在研究一种确定K的低成本方法。我们必须能够处理TBs的数据,因此它必须是快速和可并行的。这些方法似乎牺牲了性能而有利于准确性。您仍然可以使用它们来验证您的启发式算法是否可以执行。另外,TBs上的k-means实际上没有多大意义。在1%(或更少)的样本上运行它,您将得到基本相同的结果。这是统计数字。更多数据只会更改最后几个数字,除非您有偏差。如果您的代码不好,您甚至可能会遇到完整数据集的数字问题。。。