Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/361.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 对数百万个大型二进制向量进行聚类?_Python_Vector_Binary_Hierarchical Clustering_Vaex - Fatal编程技术网

Python 对数百万个大型二进制向量进行聚类?

Python 对数百万个大型二进制向量进行聚类?,python,vector,binary,hierarchical-clustering,vaex,Python,Vector,Binary,Hierarchical Clustering,Vaex,我想生成数百万个大的二进制向量(10000…100000位)。 然后我想通过重叠(和)对它们进行聚类。 之后,我想根据聚类对向量重新排序,并将其保存以备以后使用 Scipy有一种聚类方法,但它可能无法在如此大的数据集上工作。 Numpy不行,因为我会忘记的。 Vaex可能可以工作,但我必须自己编写集群算法,它将使用python,因此速度较慢且为只读。另外,我不确定生成数据时使用什么格式:csv、hdf5 有什么可能的解决办法吗?还有其他工具或技术吗 如果可能的话,我还可以在生成它们时对它们进行集

我想生成数百万个大的二进制向量(10000…100000位)。 然后我想通过重叠(和)对它们进行聚类。 之后,我想根据聚类对向量重新排序,并将其保存以备以后使用

Scipy有一种聚类方法,但它可能无法在如此大的数据集上工作。 Numpy不行,因为我会忘记的。 Vaex可能可以工作,但我必须自己编写集群算法,它将使用python,因此速度较慢且为只读。另外,我不确定生成数据时使用什么格式:csv、hdf5

有什么可能的解决办法吗?还有其他工具或技术吗


如果可能的话,我还可以在生成它们时对它们进行集群?我必须做一些聪明的索引技术

“可能不行”——你试过了吗?有什么问题吗?还没有。。。我刚开始,这就是为什么我问这个问题:走哪条路。。我列出了我想到的一些选择