Scikit learn 用python对大型数据矩阵进行集群?

Scikit learn 用python对大型数据矩阵进行集群?,scikit-learn,bigdata,cluster-analysis,data-mining,pytables,Scikit Learn,Bigdata,Cluster Analysis,Data Mining,Pytables,我想聚集150万种化合物。这意味着有1.5 x 150万个距离矩阵 我想我可以使用pyTables生成这样一个大的表,但是现在——有了这样一个表,我将如何对它进行集群 我想我不能只是把pyTables对象传递给scikit学习集群方法之一 是否有任何基于python的框架可以利用我的大表并使用它做一些有用的事情(lie集群)?也许是分布式的?我认为主要的问题是内存。1.5 x 1.5百万x 10B(1个元件尺寸)>20TB 您可以使用bigdata数据库,如pyTables、Hadoop和Map

我想聚集150万种化合物。这意味着有1.5 x 150万个距离矩阵

我想我可以使用pyTables生成这样一个大的表,但是现在——有了这样一个表,我将如何对它进行集群

我想我不能只是把pyTables对象传递给scikit学习集群方法之一


是否有任何基于python的框架可以利用我的大表并使用它做一些有用的事情(lie集群)?也许是分布式的?

我认为主要的问题是内存。1.5 x 1.5百万x 10B(1个元件尺寸)>20TB 您可以使用bigdata数据库,如pyTables、Hadoop和MapReduce算法

以下是一些指南:


或者使用带有MapReduce的Google App Engine数据存储-但现在它不是生产版本

我认为主要问题是内存。1.5 x 1.5百万x 10B(1个元件尺寸)>20TB 您可以使用bigdata数据库,如pyTables、Hadoop和MapReduce算法

以下是一些指南:


或者使用带有MapReduce的Google App Engine数据存储-但现在它不是生产版

也许你应该看看不需要全距离矩阵的算法


我知道,将算法表述为矩阵运算是很流行的,因为像R这样的工具在矩阵运算方面相当快(而在其他方面则比较慢)。但是有一大堆方法不需要
O(n^2)
内存…

也许你应该看看不需要全距离矩阵的算法


我知道,将算法表述为矩阵运算是很流行的,因为像R这样的工具在矩阵运算方面相当快(而在其他方面则比较慢)。但是有很多方法不需要
O(n^2)
memory…

为什么需要python呢?对于这种大小的数据,自然的解决方法是通过专用软件在独立过程中解决它。通常情况下,这样的矩阵要么非常稀疏,要么可以通过应用一些权重阈值轻松地将其视为稀疏矩阵。在这种情况下,它也可以被视为一个图聚类问题,因为这是我问的问题。如果你不知道答案,你为什么要发表评论?我碰巧知道一些关于集群的知识,而且奇怪的是,你被一种特定的软件语言挂断了电话,因为这是一个大规模的数据挖掘问题。你是想解决一个问题,还是你只是喜欢自吹自擂?这是一个真正的问题——为什么它必须是python?它不一定是python,但如果我的环境几乎都是基于python的,那就太好了。我不喜欢说python不适合处理大量数据,因为它不是真的,Pytable就是最好的例子。它需要基于开源软件,需要在标准的无头linux机器上完成。你刚才说python不好(因为它是python还是什么?),但你没有说什么是好的解决方案。为什么它需要是python?对于这种大小的数据,自然的解决方法是通过专用软件在独立过程中解决它。通常情况下,这样的矩阵要么非常稀疏,要么可以通过应用一些权重阈值轻松地将其视为稀疏矩阵。在这种情况下,它也可以被视为一个图聚类问题,因为这是我问的问题。如果你不知道答案,你为什么要发表评论?我碰巧知道一些关于集群的知识,而且奇怪的是,你被一种特定的软件语言挂断了电话,因为这是一个大规模的数据挖掘问题。你是想解决一个问题,还是你只是喜欢自吹自擂?这是一个真正的问题——为什么它必须是python?它不一定是python,但如果我的环境几乎都是基于python的,那就太好了。我不喜欢说python不适合处理大量数据,因为它不是真的,Pytable就是最好的例子。它需要基于开源软件,需要在标准的无头linux机器上完成。你刚才说python不好(因为它是python还是什么?),但你没有说什么是好的解决方案。为了让这个答案具有建设性,你能给出一些这样的方法的例子吗?我将添加RNSC、Louvain方法和MCL。均值漂移、SLINK、CLINK、GMM-EM、树冠预聚类。。。事实上,我相信大多数聚类算法都不是基于距离矩阵的。我想说的是,在大多数(all?)算法中,概念上都有一个距离或相似性矩阵,但没有必要跟踪所有的距离或相似性矩阵。可以进行一次性的全对全计算,存储稀疏表示,或者建立某种索引。为了使这个答案具有建设性,您能给出一些此类方法的示例吗?我将添加RNSC、Louvain方法和MCL。均值偏移、SLINK、CLINK、GMM-EM、树冠预聚类。。。事实上,我相信大多数聚类算法都不是基于距离矩阵的。我想说的是,在大多数(all?)算法中,概念上都有一个距离或相似性矩阵,但没有必要跟踪所有的距离或相似性矩阵。可以进行一次性的all vs all计算并存储稀疏表示,或者构建某种索引。