Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/windows/14.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/ruby-on-rails-3/4.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Testing 集群:集群验证_Testing_Cluster Analysis_Linear Algebra - Fatal编程技术网

Testing 集群:集群验证

Testing 集群:集群验证,testing,cluster-analysis,linear-algebra,Testing,Cluster Analysis,Linear Algebra,我想对大型社交网络数据集使用一些聚类方法。问题是如何评估聚类方法。是的,我可以使用一些外部、内部和相关的集群验证方法。我使用归一化互信息(NMI)作为基于合成数据的聚类验证的外部验证方法。通过生成5个节点数相等的簇以及每个簇内的一些强连接链接和簇间的弱连接来检查聚类方法,生成了一些合成数据集,然后分析了基于谱聚类和模块化的社区检测方法。我对我的真实数据集使用了具有最佳NMI的聚类,并检查了我的算法的错误(代价函数),结果很好。我的成本函数测试方法好吗?或者我应该再次验证我的真实单词簇的簇 谢谢。

我想对大型社交网络数据集使用一些聚类方法。问题是如何评估聚类方法。是的,我可以使用一些外部、内部和相关的集群验证方法。我使用归一化互信息(NMI)作为基于合成数据的聚类验证的外部验证方法。通过生成5个节点数相等的簇以及每个簇内的一些强连接链接和簇间的弱连接来检查聚类方法,生成了一些合成数据集,然后分析了基于谱聚类和模块化的社区检测方法。我对我的真实数据集使用了具有最佳NMI的聚类,并检查了我的算法的错误(代价函数),结果很好。我的成本函数测试方法好吗?或者我应该再次验证我的真实单词簇的簇


谢谢。

尝试多种测量方法

有十几个集群验证度量,很难预测哪一个最适合一个问题。他们之间的差异还没有真正理解,所以最好咨询多个


还要注意,如果不使用规范化度量,基线可能非常高。因此,这些措施最有用的说法是“结果A比结果C更类似于结果B”,但不应被视为质量的绝对措施。它们是相似性的相对度量。

@匿名谢谢你的回答。我很抱歉这么晚才答复你的答复。问题是如何从不同的索引(对于具有未知聚类结构的真实世界数据的内部索引)合并并得出结论,不要试图将所有内容分解为单个数字。鞋码和眼睛颜色也是两个不同的东西,不能合理地组合成一个数字。@匿名谢谢评论。我同意你的看法:)。但我只需要一个对所有索引都有良好结果的聚类数。那么,如何找到具有不同索引的点呢?你知道吗?内部索引只是测量另一个统计特性。这根本不意味着结果会因为有用而更好。有用性不能用数学方法来描述。所以,尝试不同的聚类结果,哪一个实际上更好,而不仅仅是哪一个在某些指数上得分更高。高索引值仍然是无用的。事实上,当k-means用于离散化时,“太大”的k通常至少会起到同样的作用。不要看数字。手动评估实际集群。得到的簇有用吗?你能翻译吗?任何集群,即使它的分数真的很高,也可能是无用的。