Scikit learn 用python对大型数据矩阵进行集群？_Scikit Learn_Bigdata_Cluster Analysis_Data Mining_Pytables

Scikit learn 用python对大型数据矩阵进行集群？

scikit-learn

Scikit learn 用python对大型数据矩阵进行集群？,scikit-learn,bigdata,cluster-analysis,data-mining,pytables,Scikit Learn,Bigdata,Cluster Analysis,Data Mining,Pytables,我想聚集150万种化合物。这意味着有1.5 x 150万个距离矩阵我想我可以使用pyTables生成这样一个大的表，但是现在——有了这样一个表，我将如何对它进行集群我想我不能只是把pyTables对象传递给scikit学习集群方法之一是否有任何基于python的框架可以利用我的大表并使用它做一些有用的事情（lie集群）？也许是分布式的？我认为主要的问题是内存。1.5 x 1.5百万x 10B（1个元件尺寸）>20TB 您可以使用bigdata数据库，如pyTables、Hadoop和Map

我想聚集150万种化合物。这意味着有1.5 x 150万个距离矩阵

我想我可以使用pyTables生成这样一个大的表，但是现在——有了这样一个表，我将如何对它进行集群

我想我不能只是把pyTables对象传递给scikit学习集群方法之一

是否有任何基于python的框架可以利用我的大表并使用它做一些有用的事情（lie集群）？也许是分布式的？

我认为主要的问题是内存。1.5 x 1.5百万x 10B（1个元件尺寸）>20TB 您可以使用bigdata数据库，如pyTables、Hadoop和MapReduce算法

以下是一些指南：

或者使用带有MapReduce的Google App Engine数据存储-但现在它不是生产版本

我认为主要问题是内存。1.5 x 1.5百万x 10B（1个元件尺寸）>20TB 您可以使用bigdata数据库，如pyTables、Hadoop和MapReduce算法

以下是一些指南：

或者使用带有MapReduce的Google App Engine数据存储-但现在它不是生产版

也许你应该看看不需要全距离矩阵的算法

我知道，将算法表述为矩阵运算是很流行的，因为像R这样的工具在矩阵运算方面相当快（而在其他方面则比较慢）。但是有一大堆方法不需要

O（n^2）

内存…

也许你应该看看不需要全距离矩阵的算法

我知道，将算法表述为矩阵运算是很流行的，因为像R这样的工具在矩阵运算方面相当快（而在其他方面则比较慢）。但是有很多方法不需要
O（n^2）
memory…
为什么需要python呢？对于这种大小的数据，自然的解决方法是通过专用软件在独立过程中解决它。通常情况下，这样的矩阵要么非常稀疏，要么可以通过应用一些权重阈值轻松地将其视为稀疏矩阵。在这种情况下，它也可以被视为一个图聚类问题，因为这是我问的问题。如果你不知道答案，你为什么要发表评论？我碰巧知道一些关于集群的知识，而且奇怪的是，你被一种特定的软件语言挂断了电话，因为这是一个大规模的数据挖掘问题。你是想解决一个问题，还是你只是喜欢自吹自擂？这是一个真正的问题——为什么它必须是python？它不一定是python，但如果我的环境几乎都是基于python的，那就太好了。我不喜欢说python不适合处理大量数据，因为它不是真的，Pytable就是最好的例子。它需要基于开源软件，需要在标准的无头linux机器上完成。你刚才说python不好（因为它是python还是什么？），但你没有说什么是好的解决方案。为什么它需要是python？对于这种大小的数据，自然的解决方法是通过专用软件在独立过程中解决它。通常情况下，这样的矩阵要么非常稀疏，要么可以通过应用一些权重阈值轻松地将其视为稀疏矩阵。在这种情况下，它也可以被视为一个图聚类问题，因为这是我问的问题。如果你不知道答案，你为什么要发表评论？我碰巧知道一些关于集群的知识，而且奇怪的是，你被一种特定的软件语言挂断了电话，因为这是一个大规模的数据挖掘问题。你是想解决一个问题，还是你只是喜欢自吹自擂？这是一个真正的问题——为什么它必须是python？它不一定是python，但如果我的环境几乎都是基于python的，那就太好了。我不喜欢说python不适合处理大量数据，因为它不是真的，Pytable就是最好的例子。它需要基于开源软件，需要在标准的无头linux机器上完成。你刚才说python不好（因为它是python还是什么？），但你没有说什么是好的解决方案。为了让这个答案具有建设性，你能给出一些这样的方法的例子吗？我将添加RNSC、Louvain方法和MCL。均值漂移、SLINK、CLINK、GMM-EM、树冠预聚类。。。事实上，我相信大多数聚类算法都不是基于距离矩阵的。我想说的是，在大多数（all？）算法中，概念上都有一个距离或相似性矩阵，但没有必要跟踪所有的距离或相似性矩阵。可以进行一次性的全对全计算，存储稀疏表示，或者建立某种索引。为了使这个答案具有建设性，您能给出一些此类方法的示例吗？我将添加RNSC、Louvain方法和MCL。均值偏移、SLINK、CLINK、GMM-EM、树冠预聚类。。。事实上，我相信大多数聚类算法都不是基于距离矩阵的。我想说的是，在大多数（all？）算法中，概念上都有一个距离或相似性矩阵，但没有必要跟踪所有的距离或相似性矩阵。可以进行一次性的all vs all计算并存储稀疏表示，或者构建某种索引。