如何在Python中使用两个单独的比例将两个数据集聚集到一个热图中?
我试图使用 问题是这两个数据集来自两个不同的过程,因此它们包含不同分布的值(我的意思是,第一个数据集的值范围为0到1,而第二个数据集的值范围为1000到5000) 我的问题是: 如何对具有不同值范围的两个数据集进行集群?是否有一种方法可以将数据集的行聚集到一个单独的热图中,并且每个数据集可能有两个刻度 以下是我迄今为止所做的尝试,但收效甚微:如何在Python中使用两个单独的比例将两个数据集聚集到一个热图中?,python,matplotlib,heatmap,seaborn,hierarchical-clustering,Python,Matplotlib,Heatmap,Seaborn,Hierarchical Clustering,我试图使用 问题是这两个数据集来自两个不同的过程,因此它们包含不同分布的值(我的意思是,第一个数据集的值范围为0到1,而第二个数据集的值范围为1000到5000) 我的问题是: 如何对具有不同值范围的两个数据集进行集群?是否有一种方法可以将数据集的行聚集到一个单独的热图中,并且每个数据集可能有两个刻度 以下是我迄今为止所做的尝试,但收效甚微: #First, I have combined the two datasets into one dataframe object: dataset
#First, I have combined the two datasets into one dataframe object:
dataset = pd.concat([dataset_1, dataset_2], axis=0)
#Then, passed the dataframe into Seaborn's `.clustermap()` function:
sns.clustermap(data=dataset,
col_cluster=False)
输出:您可以注意到,dataset_1
的功能都被屏蔽了,因为数据集之间的比例差异很大(dataset_1
和dataset_2
如下所示)
你知道如何解决这个问题吗?你可以在创建clustermap之前使用sklearn的预处理库,特别是scaler
文档如下:在这种情况下,标准化数据似乎没有多大帮助。我的意思是,从星团热图上看不到任何有意义的模式。我认为这可能是因为
dataset_2
的方差比dataset_1
的方差大得多。这可能会导致估计器不准确。我从[sklearn.preprocessing.StandardScaler source]读到这一点,我尝试按行缩放数据集。你的意思是单独缩放dataset_2
功能,使其比例与dataset_1
中的值比例相对匹配吗?谢谢,这就是我的意思