如何在Python中使用两个单独的比例将两个数据集聚集到一个热图中？_Python_Matplotlib_Heatmap_Seaborn_Hierarchical Clustering

如何在Python中使用两个单独的比例将两个数据集聚集到一个热图中？

python matplotlib

如何在Python中使用两个单独的比例将两个数据集聚集到一个热图中？,python,matplotlib,heatmap,seaborn,hierarchical-clustering,Python,Matplotlib,Heatmap,Seaborn,Hierarchical Clustering,我试图使用问题是这两个数据集来自两个不同的过程，因此它们包含不同分布的值（我的意思是，第一个数据集的值范围为0到1，而第二个数据集的值范围为1000到5000）我的问题是：如何对具有不同值范围的两个数据集进行集群？是否有一种方法可以将数据集的行聚集到一个单独的热图中，并且每个数据集可能有两个刻度以下是我迄今为止所做的尝试，但收效甚微： #First, I have combined the two datasets into one dataframe object: dataset

我试图使用

问题是这两个数据集来自两个不同的过程，因此它们包含不同分布的值（我的意思是，第一个数据集的值范围为0到1，而第二个数据集的值范围为1000到5000）

我的问题是：

如何对具有不同值范围的两个数据集进行集群？是否有一种方法可以将数据集的行聚集到一个单独的热图中，并且每个数据集可能有两个刻度

以下是我迄今为止所做的尝试，但收效甚微：

#First, I have combined the two datasets into one dataframe object:
dataset = pd.concat([dataset_1, dataset_2], axis=0)

#Then, passed the dataframe into Seaborn's `.clustermap()` function:
sns.clustermap(data=dataset, 
    col_cluster=False)

输出：您可以注意到，

dataset_1

的功能都被屏蔽了，因为数据集之间的比例差异很大（

dataset_1

和

dataset_2

如下所示）

你知道如何解决这个问题吗？

你可以在创建clustermap之前使用sklearn的预处理库，特别是scaler

文档如下：

在这种情况下，标准化数据似乎没有多大帮助。我的意思是，从星团热图上看不到任何有意义的模式。我认为这可能是因为

dataset_2

的方差比

dataset_1

的方差大得多。这可能会导致估计器不准确。我从[sklearn.preprocessing.StandardScaler source]读到这一点，我尝试按行缩放数据集。你的意思是单独缩放

dataset_2

功能，使其比例与

dataset_1

中的值比例相对匹配吗？谢谢，这就是我的意思