Machine learning 如何保存簇种子以用于进一步评分_Machine Learning_Cluster Analysis_K Means

Machine learning 如何保存簇种子以用于进一步评分

machine-learning

Machine learning 如何保存簇种子以用于进一步评分,machine-learning,cluster-analysis,k-means,Machine Learning,Cluster Analysis,K Means,我正在用Python构建一个k-means集群模型。但是，我不知道如何保存簇质心，以及如何将它们用于将来的计分目的。以后使用模型时，我总是希望分配相同的集群ID。如果有人有一个清晰的代码来演示如何做到这一点，我将不胜感激更新：嗨@HannounYassir，当然，很抱歉我之前应该这么做：想象一下，我的数据集名称是data_clean，所有变量都是标准化的，并且在手之前都被清理过了 # define the cluster variables cluster_vars=data_cle

我正在用Python构建一个k-means集群模型。但是，我不知道如何保存簇质心，以及如何将它们用于将来的计分目的。以后使用模型时，我总是希望分配相同的集群ID。如果有人有一个清晰的代码来演示如何做到这一点，我将不胜感激

更新：

嗨@HannounYassir，当然，很抱歉我之前应该这么做：

想象一下，我的数据集名称是data_clean，所有变量都是标准化的，并且在手之前都被清理过了

# define the cluster variables

cluster_vars=data_clean[['A' , 'B' , 'C']]

# Interpret 4 cluster solution for the data

model_4=KMeans(n_clusters=4,  random_state=30)
model_4.fit(cluster_vars_copy)
clusassign=model_4.predict(cluster_vars_copy)

# Score the customers from last year by using the model created. Imagine my new dataset is clustervars_new

model_4.fit_predict(clustervars_new)
clusassign_new=model_4.fit_predict(clustervars_new)

我100%确信我在得分阶段遗漏了一些东西，因为我没有保存质心种子。因此，它可能使用相同的模型，但是，我担心分配的集群ID将比原始数据集完全随机

不要使用

fit\u predict

它首先学习一个新的聚类，然后“预测”

但是您希望使用旧的聚类来预测

我认为在sklearn中，重用

fit

predict

fit\u predict

的分类API是一个相当糟糕的设计决策。分类很方便，但聚类不是分类，大多数聚类算法根本无法“预测”新数据。

你能发布你的任何尝试吗？嗨@HannounYassir，我用我的尝试编辑了我的原始帖子，你为什么担心？你为什么使用

fit\u predict

而不是

predict

？嗨@Anony mouse，好问题：）我复制了一个代码，它正在使用它，如果你能告诉我它们之间的主要区别，我会很高兴。