Python中具有链接的高效内存聚合聚类_Python_Machine Learning_Out Of Memory_Scikit Learn_Hierarchical Clustering

Python中具有链接的高效内存聚合聚类

python machine-learning scikit-learn

Python中具有链接的高效内存聚合聚类,python,machine-learning,out-of-memory,scikit-learn,hierarchical-clustering,Python,Machine Learning,Out Of Memory,Scikit Learn,Hierarchical Clustering,我想在地图上对二维点（纬度/经度）进行聚类。点数为400K，因此输入矩阵为400K x 2 当我运行时，我的内存用完了，我的内存大约是500GB class sklearn.cluster.AgglomerativeClustering(n_clusters=2, affinity='euclidean', memory=Memory(cachedir=None), connectivity=None, n_components=None, compute_full_tree='auto', l

我想在地图上对二维点（纬度/经度）进行聚类。点数为400K，因此输入矩阵为400K x 2

当我运行时，我的内存用完了，我的内存大约是500GB

class sklearn.cluster.AgglomerativeClustering(n_clusters=2, affinity='euclidean', memory=Memory(cachedir=None), connectivity=None, n_components=None, compute_full_tree='auto', linkage='ward', pooling_func=<function mean at 0x2b8085912398>)[source]

class sklearn.cluster.aggregativeclustering（n_clusters=2，affinity='euclidean'，memory=memory（cachedir=None），connectivity=None，n_components=None，compute_full_tree='auto'，linkage='ward'，pooling_func=）[来源]

我还尝试了memory=memory（cachedir）选项，但没有成功。是否有人有建议（另一个库或scikit代码中的更改），以便我可以在数据上运行集群算法

我已经在小型数据集上成功运行了该算法。

您对一些现成的解决方案感兴趣，还是想解决这个问题？我对scikit learn不太确定，但我可以想象一些基于boosting的方法来解决这个问题，如果您愿意，我可以写下来。@Salvador Dali:对于memory参数，我创建了一个目录/tmp/memory\u cache，并将memory参数设置为memory=memory（“/tmp/memory\u cache”）@菲利玛尔扎克：我对一些现成的解决方案感兴趣，但它可以是C++中的另一个工具箱或其他语言，我可以把它添加到我的PiPulLin中。