Artificial intelligence 利用成对计数f-测度评价层次聚类

Artificial intelligence 利用成对计数f-测度评价层次聚类,artificial-intelligence,data-mining,cluster-analysis,hierarchical-clustering,Artificial Intelligence,Data Mining,Cluster Analysis,Hierarchical Clustering,情况如下: 我有一个文档数据集,我已经根据主题手动分配给(地面)集群。然后,我使用层次聚集聚类(HAC)自动对同一数据集进行聚类。我现在尝试使用成对计数f-度量来评估HAC集群(如相似性度量的表征和评估中所述) 由Darius Pfizner、Richard Leibbrandt和David Powers设计的成对集群) 然而,我面临的问题是,我的手动集群产生了扁平集群(因此集群之间没有任何关系),而HAC发现的集群是分层的。因此,在查看树状图时,根据您选择的深度(水平线),您有不同数量的簇(在

情况如下:

我有一个文档数据集,我已经根据主题手动分配给(地面)集群。然后,我使用层次聚集聚类(HAC)自动对同一数据集进行聚类。我现在尝试使用成对计数f-度量来评估HAC集群(如相似性度量的表征和评估中所述) 由Darius Pfizner、Richard Leibbrandt和David Powers设计的成对集群)

然而,我面临的问题是,我的手动集群产生了扁平集群(因此集群之间没有任何关系),而HAC发现的集群是分层的。因此,在查看树状图时,根据您选择的深度(水平线),您有不同数量的簇(在深度0(根节点)处,您只有1个簇;在最大深度处,您的簇数等于数据集中的元素数)

因此,我现在的问题是:

  • 我是否需要选择一个深度(这样我就有了一组固定的簇)来使用配对计数f-度量(或者我遗漏了什么?)
  • 如果是,我用什么标准来确定这个深度

成对计数措施设计用于无重叠平切割

如果试图计算重叠或分层结果,则很容易得到超出
[0;1]
范围的值;因此,这些方法显然不起作用

因此,是的,您必须以某种方式(例如,在特定高度;或为了实现特定数量的簇)切割树,以便能够使用此评估度量

关于如何从分层聚类结果(无论是来自链接聚类、光学还是HDBSCAN)中提取平面划分的最新建议,请参见:

从层次结构中半监督和非监督最优提取聚类的框架
R.J.G.B.坎佩罗,D.穆拉维,A.齐梅克,J.桑德
《数据挖掘与知识发现》,27(3):344–3712013


但我还没有用过这个。不过,这听起来很有用,在我的阅读清单上。

谢谢你的回答。我去看看!