Algorithm 完全链接聚类

Algorithm 完全链接聚类,algorithm,machine-learning,cluster-analysis,hierarchical-clustering,Algorithm,Machine Learning,Cluster Analysis,Hierarchical Clustering,我猜想,同一个簇中的两个元素总是比另一个簇中的其他元素更接近 更正式地说: 让$C$成为一个集群。 $\not\exists z\在C_j$s.t.$\bigtriangleup(x,z)

我猜想,同一个簇中的两个元素总是比另一个簇中的其他元素更接近

更正式地说:

让$C$成为一个集群。 $\not\exists z\在C_j$s.t.$\bigtriangleup(x,z)<\bigtriangleup(x,y)$中,其中$x,y\在C_i$、$C_i\neq C_j$和$C_i,C_j\在C$中

我还没能证明这个猜想,所以我想知道我是对还是错。如果真的是这样的话,我非常希望能有一个证明的草图。我很确定我可以从那里开始工作

另一方面(我并不认为这有什么不同),我将在一维数据集上应用聚类算法


非常感谢您的意见。

我不确定您的猜测是否正确。由于完全链接聚类的性质,每次聚集两个聚类时,之所以这样做是因为这两个聚类之间相距最远的两个元素彼此之间的距离仍然比任何其他聚类的最远元素更近

你想证明的是

“在另一个集群(集群B)中,永远不会有一个元素比正在考虑的集群(集群A)中的任何其他元素更接近正在考虑的集群(集群A)中的某个元素.也就是说,群集中A的一个元素与群集中A的所有其他元素之间的最小距离始终小于群集中A的一个元素与群集中B的任何元素之间的最小距离“

然而,由于完全连锁聚类,在合并两个集群A和B之后,集群C中仍然可能存在一个元素,该元素比集群AB中的任何其他元素更接近集群AB中的一个元素,因为完全连锁只关注最大距离

反例: A--1--B--3--C--2.5--D--2--E

如何解释示例:
  • 观测值A、B、C、D和E排列成一条直线
  • 观测A距离观测B 1个单位
  • 观察点B距离观察点C有3个单位
  • 观测值C与观测值D相差2.5个单位
  • 观测点D距离观测点E有2个单位
让我们执行分层聚类:

  • 第一个A和B合并,因为距离为1:
  • 新图片:

    AB--4--C--2.5--D--2--E

    • 聚类AB距离观测值C有4个单位(因为完全连锁聚类,A距离C有4个单位),距离D有2.5个单位,距离E有2个单位

    • 接下来,D和E合并,因为距离是2
    新图片

    AB--4--C--4.5--DE

    • 集群AB与观测值C的距离为4个单位(如前所述),与集群DE的距离为4.5个单位,因为由于完整的连锁集群,C与E的距离为4.5个单位

    • 接下来,C需要合并到AB中,因为它的距离是4,而DE是4.5:
    ABC--8.5--DE

    • 群集ABC距离DE为8.5个单位,因为A距离E为8.5个单位

    但是,在这一点上,我们推翻了你的猜测。元素C是B的3个单位和A的4个单位(参考原始图表)。然而,元素C与元素D之间只有2.5个单位,而元素D位于另一个集群中。

    我真的希望StackOverflow支持LaTeX嵌入。这是您试图证明的准确陈述吗?“在另一个集群(集群B)中,永远不会有一个元素比正在考虑的集群(集群A)中的任何其他元素更接近正在考虑的集群(集群A)中的某个元素也就是说,A组中的一个元素与A组中所有其他元素之间的最小距离总是小于A组中的一个元素与B组中任何元素之间的最小距离“我很确定你的猜测是错误的。特别是,这可能意味着单个链接和完整链接总是产生相同的结果,而它们不会。