Algorithm 图论:聚类系数的计算

Algorithm 图论:聚类系数的计算,algorithm,cluster-analysis,graph-theory,Algorithm,Cluster Analysis,Graph Theory,我正在做一些研究,我已经计算出了一个图的聚类系数 根据: 聚类系数C(p)为 定义如下。假设 顶点v有kv邻域;然后在 大多数(kv*(kv-1))/2边缘可以 存在于它们之间(当 v的每个邻居都连接到 (v)的每一个邻居。让Cv 表示这些允许值的分数 实际存在的边。定义C为 所有v上的Cv平均值 但是: C=(闭合三元组数)/(连接三元组数) 在我看来,后者的计算成本更高 所以我的问题是:它们是等价的吗 需要注意的是,维基百科的文章引用了这篇文章 谢谢你的时间。我认为它们是等效的。您链接到的w

我正在做一些研究,我已经计算出了一个图的聚类系数

根据:

聚类系数C(p)为 定义如下。假设 顶点v有kv邻域;然后在 大多数(kv*(kv-1))/2边缘可以 存在于它们之间(当 v的每个邻居都连接到 (v)的每一个邻居。让Cv 表示这些允许值的分数 实际存在的边。定义C为 所有v上的Cv平均值

但是:

C=(闭合三元组数)/(连接三元组数)

在我看来,后者的计算成本更高

所以我的问题是:它们是等价的吗

需要注意的是,维基百科的文章引用了这篇文章


谢谢你的时间。

我认为它们是等效的。您链接到的wiki页面提供了一个证据,证明在计算局部聚集系数(即仅在顶点处计算)时,三元组公式等同于可能边公式的分数。从那里看来,你只需要证明这一点

sum_v lambda(v)/tau(v) = 3 x # triangles / # connected triples
其中,
lambda(v)
是包含v的三角形的数量,
tau(v)
是连接的三元组的数量,其中v是中间顶点,即与其他两条边中的每一条相邻


现在每个三角形在LHS的分子中被计数三次。但是,对于LHS上的中间顶点,每个连接的三元组只计算一次,因此分母是相同的。

我部分不同意Whatang。这些方法仅对无向图是等价的。然而,对于有向图,它们返回不同的结果。我认为局部聚类系数法是正确的。更不用说它的计算成本更低了。比如说

  <-----
4 -----> 5
|<--||-->
|   ||
|-> 6  -> 7

4(IN [5,6], OUT [5,6])
5(IN [4,6], OUT [4])
6(IN [4], OUT [4,5,7])
7(IN [6], OUT [])
5
|
|   ||
|-> 6  -> 7
4(输入[5,6],输出[5,6])
5(输入[4,6],输出[4])
6(输入[4],输出[4,5,7])
7(输入[6],输出[])
中环=6

localCC=2/4*3=1/6


globalCC=1/3

这两个公式不一样;它们是计算全局聚类系数的两种不同方法

一种方法是平均所有节点的聚类系数(C_i[1])(这是您从Watts和Strogatz引用的方法)。然而,在[2,p204]中,纽曼认为这种方法不如第二种方法(你从维基百科得到的方法)。他指出,由于C_i的分母[1],全局聚类系数的值如何由低阶节点支配,从而证明了这一点。因此,在一个有许多低阶节点的网络中,你最终会得到一个很大的全局聚类系数,纽曼认为这是不具代表性的

然而,许多网络研究(或者,根据我的经验,至少许多与在线社交网络有关的研究)似乎都使用了这种方法,因此为了能够将你的结果与他们的结果进行比较,你需要使用相同的方法。此外,纽曼提出的批评并不影响对全局聚类系数进行比较的程度,前提是在测量它们时使用了相同的方法

这两个公式是不同的,是在不同的时刻提出的。你从瓦特和斯特罗加茨那里引用的那个比较老,这也许就是为什么它似乎更常用的原因。纽曼还解释说,这两个公式与等效公式相差甚远,不应如此使用。他说,对于一个给定的网络,他们可以给出实质上不同的数字,但没有解释原因

[1] C_i=(连接的i的邻域对数)/(i的邻域对数)

[2] 纽曼,M.E.J.《网络:导论》。牛津纽约:牛津大学出版社,2010年。印刷品

编辑:

我在这里为同一个ER随机图进行了一系列计算。您可以看到这两种方法如何给出不同的结果,即使对于无向图也是如此。(使用Mathematica完成)


我不相信维基百科的那篇文章。您引用的第一个公式当前定义为平均聚类系数,因此它是图g的所有局部聚类系数的平均值。正如xk_id恰当地指出的那样,这与全局聚类系数完全不同

有一个很棒的页面可以学习基础知识


所有关于集群系数、小世界等的信息…

有一个网站可以提供这些信息,啊,我不知道。我会在那边问同样的问题。Thanks@Henk-当然?cstheory不是研究级CS吗?我不确定他们是否能接受这样的问题。他们可能属于though@Steve例如我真的不知道。但目前他们主页上的首要问题是“你知道什么层次和/或层次定理?”所以我认为那里的质量也有一些传播。我明天必须重新回来看看你说的话。然而,再往下看,我要找的似乎是“网络平均聚类系数”。因为页面证明了这两种方法对于局部聚类系数是等价的。网络平均聚类系数就是所有局部聚类系数的平均值。这两种方法似乎是等效的,因为论文中的方法和该部分中的引文来自同一作者(Watts和Strogatz)。你说呢?是的,网络平均值就是你所看到的。你只需要证明,使用边缘分数公式计算的网络平均值之和等于页面顶部显示的全局聚类系数——这就是我的答案。好吧,如果你觉得你想接受它,是的:P,但是请你自由地进行计算,并让自己相信我首先是对的!好的,非常感谢你的帮助。我明天会回来报告。这篇论文支持了这一点: