Functional programming 最大信息系数与层次凝聚聚类

Functional programming 最大信息系数与层次凝聚聚类,functional-programming,duplicates,cluster-analysis,coefficients,information-theory,Functional Programming,Duplicates,Cluster Analysis,Coefficients,Information Theory,最大信息系数和层次凝聚聚类在识别函数依赖和非函数依赖方面有什么区别 其中哪一个可以更好地识别重复项 对不起,这个问题没有多大意义 MIC和HAC的共同点接近于零 MIC是一种残废的“关联”形式,具有非常粗糙的启发式搜索、大量的宣传视频和新闻公告,并收到了统计人员的一些相当严厉的评论。你可以把它归入“如果它被提交到适当的期刊上,(而不是那些不具体、被高估的——或者至少,从学科领域找更好的评论员。这不是第一篇这样质量的科学文章……),它会被拒绝(按原样——更好的专家评审员会要求进行重大修改)”。参见

最大信息系数和层次凝聚聚类在识别函数依赖和非函数依赖方面有什么区别


其中哪一个可以更好地识别重复项

对不起,这个问题没有多大意义

MIC和HAC的共同点接近于零

MIC是一种残废的“关联”形式,具有非常粗糙的启发式搜索、大量的宣传视频和新闻公告,并收到了统计人员的一些相当严厉的评论。你可以把它归入“如果它被提交到适当的期刊上,(而不是那些不具体、被高估的——或者至少,从学科领域找更好的评论员。这不是第一篇这样质量的科学文章……)它会被拒绝(按原样——更好的专家评审员会要求进行重大修改)”。参见,例如

Noah Simon和Robert Tibshirani,《科学》2011年12月16日,Reshef等人对“在大数据集中检测新关联”的评论

从图中可以看出,除了有点病态的高频正弦波外,MIC在任何情况下的功率都低于dcor。MIC有时也不如Pearson相关性,线性情况尤其令人担忧

“tibs”是一位受人尊敬的作家。这只是许多人惊讶于这些东西在如此高声誉的杂志上被接受的原因之一。IIRC,MIC的作者甚至没有将其与“古老”的替代品(如斯皮尔曼)和现代替代品(如dCor)进行比较,也没有正确地对其方法的统计能力进行测试

当以统计严谨的态度进行研究时,MIC的效果比宣传的差得多:

Gorfine,M.,Heller,R.,和Heller,Y.(2012)。对“在大数据集中检测新关联”的评论

“在大多数嘈杂的功能和非功能设置下,HHG和dCor测试在实际样本量下比麦克风测试具有非常大的功率优势;”

事实上,MIC在一些琐碎的数据集上给出了非常不合适的结果,例如棋盘式均匀分布▄▀, 它认为最大相关(与y=x相关);通过设计。他们基于网格的设计过度适合正弦曲线的相当特殊的场景。它有一些有趣的特性,但早期的方法(如Spearman和dCor)更好地捕捉到了这些特性

MIC作者未能将其与斯皮尔曼进行比较是一个严重的遗漏,因为如果我回忆正确的话,他们自己的方法也是完全基于等级的。斯皮尔曼在排名上是皮尔逊,但他们只和皮尔逊相比。话筒最受欢迎的例子(另一个值得商榷的选择)是正弦波——在秩变换后,正弦波实际上是一条之字形曲线,不再是正弦曲线)。我认为这是“欺骗”,使皮尔森看起来不好,因为不使用皮尔森的等级转换。优秀的评论者会要求进行这样的比较

现在所有这些投诉基本上都与HAC无关。HAC并不试图定义任何形式的“相关性”,但它可以用于任何距离或相似性(包括相关性相似性)。 HAC是完全不同的:一种聚类算法。它分析更大的行,而不是两个(!)列

您甚至可以将它们结合起来:如果您计算每对变量的MIC(但我更愿意使用Pearson相关、Spearman相关或距离相关dCor),您可以使用HAC对变量进行聚类


对于查找两个重复项,两者都不是一个好的选择。只需对数据进行排序,重复项就会接踵而至。(或者,如果对列进行排序,则将列彼此相邻)。

这可能应该移动到。