&引用;快速病房;Python中的集群

&引用;快速病房;Python中的集群,python,python-3.x,hierarchical-clustering,Python,Python 3.x,Hierarchical Clustering,在JMP软件中,当行数大于2000时,可以选择使用“快速前进”方法。从[禁区]: “对大量行应用一种能更快地计算Ward方法的算法。由于该算法不需要计算距离矩阵,因此计算时间更短。当行数超过2000行时,将自动使用该算法。” 做同样的事。。。。 在使用ward链接方法创建的分层群集树中,最多可找到四个群集。请将“SaveMemory”指定为“on”,以便在不计算距离矩阵的情况下构造群集。否则,如果您的计算机没有足够的内存来保存距离矩阵,您可能会收到内存不足错误 我在Python中寻找类似的东西,

在JMP软件中,当行数大于2000时,可以选择使用“快速前进”方法。从[禁区]:

“对大量行应用一种能更快地计算Ward方法的算法。由于该算法不需要计算距离矩阵,因此计算时间更短。当行数超过2000行时,将自动使用该算法。”

做同样的事。。。。 在使用ward链接方法创建的分层群集树中,最多可找到四个群集。请将“SaveMemory”指定为“on”,以便在不计算距离矩阵的情况下构造群集。否则,如果您的计算机没有足够的内存来保存距离矩阵,您可能会收到内存不足错误

我在Python中寻找类似的东西,但它们似乎都需要提前计算距离矩阵(对于我的275k行和10列的问题,这需要大量内存)。在JMP/Matlab中,虽然它在内存只有机器一半的机器上运行得很好,但我想在其上运行python脚本。有人知道吗

来自:

我发现使用“linkage_vector”选项似乎就是我想要的。我被抛弃是因为“向量”对我来说意味着1D,但我猜它可以是N-D


你和谁一起工作过?它可以选择“距离矩阵的层次聚类或向量数据的层次聚类”

使用“添加答案”按钮,而不是将答案编辑到问题中,来编写自己的答案。(这样,经过一段时间的延迟后,您将能够接受该问题并将该问题标记为已结束;这样,答案也会受到与问题本身分开的向上/向下投票/评论的影响)。另请参见.BTW,当我将现在删除的自我答案复制到社区wiki帖子中时,如果您想添加自己的非社区wiki答案(这样您就可以获得与UPVOUTES相关的任何分数),请告诉我,我很乐意将其删除。