基于相关系数的Python层次聚类_Python_Scikit Learn_Cluster Analysis_Correlation_Hierarchical Clustering

基于相关系数的Python层次聚类

python scikit-learn

基于相关系数的Python层次聚类,python,scikit-learn,cluster-analysis,correlation,hierarchical-clustering,Python,Scikit Learn,Cluster Analysis,Correlation,Hierarchical Clustering,我有50×50矩阵中的数据，代表50种期刊及其相关性。现在，我正试图绘制一张图表，根据数据显示这50份期刊属于哪一类 1）我更喜欢使用完全链接或Ward方法进行聚类。 2）由于scikit learn中的文档对我来说太过技术化，所以我一直无法确定从何处开始集群 3）你能帮我踢一脚吗提前非常感谢你我的所有数据都在-1和1之间，因为它是相关系数数据样本示例（50*50）：数据=[[1.0.49319094 0.58838586…，0.11433441 0.6450184 0.60842

我有50×50矩阵中的数据，代表50种期刊及其相关性。现在，我正试图绘制一张图表，根据数据显示这50份期刊属于哪一类

1）我更喜欢使用完全链接或Ward方法进行聚类。 2）由于scikit learn中的文档对我来说太过技术化，所以我一直无法确定从何处开始集群 3）你能帮我踢一脚吗

提前非常感谢你

我的所有数据都在-1和1之间，因为它是相关系数

数据样本示例（50*50）：

数据=[[1.0.49319094 0.58838586…，0.11433441 0.6450184 0.60842821]

[0.49319094 1.0.39311674…，-0.00795401 0.42944597 0.68855177]

[0.58838586 0.39311674 1….，0.39785574 0.864322 0.68910632]

[0.11433441-0.00795401 0.39785574…，1.0.38623474 0.34228516]

[0.6450184 0.42944597 0.864322…，0.38623474 1.0.65408474]

[0.60842821 0.68855177 0.68910632…，0.34228516 0.65408474 1.]

Python期望距离，即较低的值更好

Ward是为平方欧几里德设计的，因此，虽然它可以与相关性一起工作，但理论的支持可能很弱。将支持完整的链接

负相关性呢？你想如何处理它们

我相信我知道三种流行的转变：

1-p**2

（根据具体实施情况，这可能是Ward的一个不错选择，因为它是方形的）

1-防抱死制动系统（p）

1-p

（这将把负相关性视为不好！）

确保将度量设置为“预计算”。并习惯于阅读和学习文档。这是你会发现的最不专业的课程之一，所以你最好自己变得更专业。

非常感谢你的回复。是的，我计划使用完整的链接进行集群。正如在许多实验中所读到的，我认为，1-abs（p）将是在对数据集进行聚类之前处理负相关性的最佳方法。