Python中具有链接的高效内存聚合聚类

Python中具有链接的高效内存聚合聚类,python,machine-learning,out-of-memory,scikit-learn,hierarchical-clustering,Python,Machine Learning,Out Of Memory,Scikit Learn,Hierarchical Clustering,我想在地图上对二维点(纬度/经度)进行聚类。点数为400K,因此输入矩阵为400K x 2 当我运行时,我的内存用完了,我的内存大约是500GB class sklearn.cluster.AgglomerativeClustering(n_clusters=2, affinity='euclidean', memory=Memory(cachedir=None), connectivity=None, n_components=None, compute_full_tree='auto', l

我想在地图上对二维点(纬度/经度)进行聚类。点数为400K,因此输入矩阵为400K x 2

当我运行时,我的内存用完了,我的内存大约是500GB

class sklearn.cluster.AgglomerativeClustering(n_clusters=2, affinity='euclidean', memory=Memory(cachedir=None), connectivity=None, n_components=None, compute_full_tree='auto', linkage='ward', pooling_func=<function mean at 0x2b8085912398>)[source]
class sklearn.cluster.aggregativeclustering(n_clusters=2,affinity='euclidean',memory=memory(cachedir=None),connectivity=None,n_components=None,compute_full_tree='auto',linkage='ward',pooling_func=)[来源]
我还尝试了memory=memory(cachedir)选项,但没有成功。是否有人有建议(另一个库或scikit代码中的更改),以便我可以在数据上运行集群算法


我已经在小型数据集上成功运行了该算法。

您对一些现成的解决方案感兴趣,还是想解决这个问题?我对scikit learn不太确定,但我可以想象一些基于boosting的方法来解决这个问题,如果您愿意,我可以写下来。@Salvador Dali:对于memory参数,我创建了一个目录/tmp/memory\u cache,并将memory参数设置为memory=memory(“/tmp/memory\u cache”)@菲利玛尔扎克:我对一些现成的解决方案感兴趣,但它可以是C++中的另一个工具箱或其他语言,我可以把它添加到我的PiPulLin中。