Python 如何分发小批量kmeans(scikit learn)的处理?

Python 如何分发小批量kmeans(scikit learn)的处理?,python,machine-learning,multiprocessing,scikit-learn,Python,Machine Learning,Multiprocessing,Scikit Learn,在Scikit learn中,K-Means有n_作业,但MiniBatch K-Means缺少它。 MBK比KMeans快,但在大样本集上,我们希望它跨多处理(或其他并行处理库)分布处理 MKB的部分适合答案吗?我认为这是不可能的。您可以在minibatch处理中使用OpenMP实现某些功能。我不知道有任何并行的minibatch k-means程序。并行随机梯度下降程序有点麻烦 顺便说一句,KMeans中的n_jobs参数仅分布不同的随机初始化。可以预热模型以达到局部最小盆地,然后使用原始模

在Scikit learn中,K-Means有n_作业,但MiniBatch K-Means缺少它。 MBK比KMeans快,但在大样本集上,我们希望它跨多处理(或其他并行处理库)分布处理


MKB的部分适合答案吗?

我认为这是不可能的。您可以在minibatch处理中使用OpenMP实现某些功能。我不知道有任何并行的minibatch k-means程序。并行随机梯度下降程序有点麻烦


顺便说一句,KMeans中的n_jobs参数仅分布不同的随机初始化。

可以预热模型以达到局部最小盆地,然后使用原始模型的克隆对数据集的分区进行微调,并不时进行平均。我从来没有试过。有什么特别的原因让你热身而不从分区开始吗?还有,你的平均值是多少?试着找出簇之间的对应关系,然后平均中心?或者,您是否开始进行一些良好的初始化并期望通信稳定?模型0的质心2不太可能接近模型1的质心2。。。热身是为了使质心的稳定匹配成为可能。。不熟悉OpenMP,所以我运气不好。像LinearSVC一样,在监督学习中进行分布式学习很容易,所以我认为在MBK中这是可能的。那么,具有多个节点的云如何使用Kmeans呢?他们一点也不喜欢?嘿,伙计们,这个怎么样?看起来很有趣。我也发现了这个