如何在Python中使用两个单独的比例将两个数据集聚集到一个热图中?

如何在Python中使用两个单独的比例将两个数据集聚集到一个热图中?,python,matplotlib,heatmap,seaborn,hierarchical-clustering,Python,Matplotlib,Heatmap,Seaborn,Hierarchical Clustering,我试图使用 问题是这两个数据集来自两个不同的过程,因此它们包含不同分布的值(我的意思是,第一个数据集的值范围为0到1,而第二个数据集的值范围为1000到5000) 我的问题是: 如何对具有不同值范围的两个数据集进行集群?是否有一种方法可以将数据集的行聚集到一个单独的热图中,并且每个数据集可能有两个刻度 以下是我迄今为止所做的尝试,但收效甚微: #First, I have combined the two datasets into one dataframe object: dataset

我试图使用

问题是这两个数据集来自两个不同的过程,因此它们包含不同分布的值(我的意思是,第一个数据集的值范围为0到1,而第二个数据集的值范围为1000到5000)

我的问题是:

如何对具有不同值范围的两个数据集进行集群?是否有一种方法可以将数据集的行聚集到一个单独的热图中,并且每个数据集可能有两个刻度

以下是我迄今为止所做的尝试,但收效甚微:

#First, I have combined the two datasets into one dataframe object:
dataset = pd.concat([dataset_1, dataset_2], axis=0)

#Then, passed the dataframe into Seaborn's `.clustermap()` function:
sns.clustermap(data=dataset, 
    col_cluster=False)
输出:您可以注意到,
dataset_1
的功能都被屏蔽了,因为数据集之间的比例差异很大(
dataset_1
dataset_2
如下所示)


你知道如何解决这个问题吗?

你可以在创建clustermap之前使用sklearn的预处理库,特别是scaler


文档如下:

在这种情况下,标准化数据似乎没有多大帮助。我的意思是,从星团热图上看不到任何有意义的模式。我认为这可能是因为
dataset_2
的方差比
dataset_1
的方差大得多。这可能会导致估计器不准确。我从[sklearn.preprocessing.StandardScaler source]读到这一点,我尝试按行缩放数据集。你的意思是单独缩放
dataset_2
功能,使其比例与
dataset_1
中的值比例相对匹配吗?谢谢,这就是我的意思