Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/327.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
基于相关系数的Python层次聚类_Python_Scikit Learn_Cluster Analysis_Correlation_Hierarchical Clustering - Fatal编程技术网

基于相关系数的Python层次聚类

基于相关系数的Python层次聚类,python,scikit-learn,cluster-analysis,correlation,hierarchical-clustering,Python,Scikit Learn,Cluster Analysis,Correlation,Hierarchical Clustering,我有50×50矩阵中的数据,代表50种期刊及其相关性。现在,我正试图绘制一张图表,根据数据显示这50份期刊属于哪一类 1) 我更喜欢使用完全链接或Ward方法进行聚类。 2) 由于scikit learn中的文档对我来说太过技术化,所以我一直无法确定从何处开始集群 3) 你能帮我踢一脚吗 提前非常感谢你 我的所有数据都在-1和1之间,因为它是相关系数 数据样本示例(50*50): 数据=[[1.0.49319094 0.58838586…,0.11433441 0.6450184 0.60842

我有50×50矩阵中的数据,代表50种期刊及其相关性。现在,我正试图绘制一张图表,根据数据显示这50份期刊属于哪一类

1) 我更喜欢使用完全链接或Ward方法进行聚类。 2) 由于scikit learn中的文档对我来说太过技术化,所以我一直无法确定从何处开始集群 3) 你能帮我踢一脚吗

提前非常感谢你

我的所有数据都在-1和1之间,因为它是相关系数

数据样本示例(50*50):

数据=[[1.0.49319094 0.58838586…,0.11433441 0.6450184 0.60842821]

[0.49319094 1.0.39311674…,-0.00795401 0.42944597 0.68855177]

[0.58838586 0.39311674 1….,0.39785574 0.864322 0.68910632]

[0.11433441-0.00795401 0.39785574…,1.0.38623474 0.34228516]

[0.6450184 0.42944597 0.864322…,0.38623474 1.0.65408474]

[0.60842821 0.68855177 0.68910632…,0.34228516 0.65408474 1.]

Python期望距离,即较低的值更好

Ward是为平方欧几里德设计的,因此,虽然它可以与相关性一起工作,但理论的支持可能很弱。将支持完整的链接

负相关性呢?你想如何处理它们

我相信我知道三种流行的转变:

  • 1-p**2
    (根据具体实施情况,这可能是Ward的一个不错选择,因为它是方形的)
  • 1-防抱死制动系统(p)
  • 1-p
    (这将把负相关性视为不好!)

  • 确保将度量设置为“预计算”。并习惯于阅读和学习文档。这是你会发现的最不专业的课程之一,所以你最好自己变得更专业。

    非常感谢你的回复。是的,我计划使用完整的链接进行集群。正如在许多实验中所读到的,我认为,1-abs(p)将是在对数据集进行聚类之前处理负相关性的最佳方法。