Python 对数百万个大型二进制向量进行聚类？_Python_Vector_Binary_Hierarchical Clustering_Vaex

Python 对数百万个大型二进制向量进行聚类？

python vector binary

Python 对数百万个大型二进制向量进行聚类？,python,vector,binary,hierarchical-clustering,vaex,Python,Vector,Binary,Hierarchical Clustering,Vaex,我想生成数百万个大的二进制向量（10000…100000位）。然后我想通过重叠（和）对它们进行聚类。之后，我想根据聚类对向量重新排序，并将其保存以备以后使用 Scipy有一种聚类方法，但它可能无法在如此大的数据集上工作。 Numpy不行，因为我会忘记的。 Vaex可能可以工作，但我必须自己编写集群算法，它将使用python，因此速度较慢且为只读。另外，我不确定生成数据时使用什么格式：csv、hdf5 有什么可能的解决办法吗？还有其他工具或技术吗如果可能的话，我还可以在生成它们时对它们进行集

我想生成数百万个大的二进制向量（10000…100000位）。然后我想通过重叠（和）对它们进行聚类。之后，我想根据聚类对向量重新排序，并将其保存以备以后使用

Scipy有一种聚类方法，但它可能无法在如此大的数据集上工作。 Numpy不行，因为我会忘记的。 Vaex可能可以工作，但我必须自己编写集群算法，它将使用python，因此速度较慢且为只读。另外，我不确定生成数据时使用什么格式：csv、hdf5

有什么可能的解决办法吗？还有其他工具或技术吗

如果可能的话，我还可以在生成它们时对它们进行集群？我必须做一些聪明的索引技术

“可能不行”——你试过了吗？有什么问题吗？还没有。。。我刚开始，这就是为什么我问这个问题：走哪条路。。我列出了我想到的一些选择