基于matlab的数据聚类
我正在尝试对数据进行群集。以下是我的数据示例:基于matlab的数据聚类,matlab,cluster-analysis,hierarchy,dendrogram,Matlab,Cluster Analysis,Hierarchy,Dendrogram,我正在尝试对数据进行群集。以下是我的数据示例: genes param1 param2 ... gene1 0.224 -0.113 ... gene2 -0.149 -0.934 ... 我有一千个基因和一百个参数。我想通过基因和参数对我的数据进行聚类,并使用聚类图。因为有很多基因,用图片很难理解任何东西。现在我想得到我数据中15-20个最大基因簇的文本信息。我的意思是15-20个基因列表,它们属于不同的簇。我该怎么做? 谢谢 这是我从数据中得到的聚类图示例: 这
genes param1 param2 ...
gene1 0.224 -0.113 ...
gene2 -0.149 -0.934 ...
我有一千个基因和一百个参数。我想通过基因和参数对我的数据进行聚类,并使用聚类图。因为有很多基因,用图片很难理解任何东西。现在我想得到我数据中15-20个最大基因簇的文本信息。我的意思是15-20个基因列表,它们属于不同的簇。我该怎么做?
谢谢
这是我从数据中得到的聚类图示例:
这里有垂直和水平树状图。因为有很多行,所以在垂直树状图上不可能看到任何东西(我只需要这一行)。
据我所知,树状图从我的数据中创建了一个二进制聚类,从N行数据中有N-1个聚类。因为这些是二进制聚类,所以有一个聚类,在下一步它分裂成两个,然后再分裂成两个,依此类推。我可以在第4步中获得哪些基因在哪些簇中的信息吗?例如,当有16个簇时?要更清楚地查看树状图和热图中感兴趣的部分,可以使用工具栏上的缩放按钮选择感兴趣的区域并放大它们 要找出特定簇中的基因/变量,请右键单击表示感兴趣簇的树状图中的一个点,然后选择“导出到工作区”。您将获得具有以下字段的结构:
请澄清您的术语
集群
?那是什么?我指的是一组相似的基因,用参数值来衡量相似性。Clustergram是matlab中的一个工具,请给我们一个输入和输出的简短示例?会有帮助的。“还是很模糊。”迪瓦卡希望现在更清楚了:)不,不多。您应该发布更大的样本数据,并解释集群的含义。什么是好集群,什么是坏集群?它们什么时候相似?什么时候它们不相似?只有你知道你的数据。选择一个特定的示例,绘制一幅图像,解释您试图定位的群集等。这可能会有所帮助: