Pyspark 在Spark MLlib中,如何使用Python将平分KmeansModel保存到HDFS?

Pyspark 在Spark MLlib中,如何使用Python将平分KmeansModel保存到HDFS?,pyspark,apache-spark-mllib,Pyspark,Apache Spark Mllib,在Spark MLlib中,pyspark中的平分KMeansModel没有保存/加载功能。 为什么? 如何使用Python将二分法Kmeans模型保存或加载到HDFS?它可能是您的spark版本。对于平分k_,建议平均值高于2.1.0 您可以在pyspark.ml.clustering.bisevingKmeans类中找到一个完整的示例,希望对您有所帮助: 示例代码的最后一部分包括模型保存/加载: model_path = temp_path + "/bkm_model" model.sav

在Spark MLlib中,pyspark中的平分KMeansModel没有保存/加载功能。 为什么?
如何使用Python将二分法Kmeans模型保存或加载到HDFS?

它可能是您的spark版本。对于平分k_,建议平均值高于2.1.0

您可以在pyspark.ml.clustering.bisevingKmeans类中找到一个完整的示例,希望对您有所帮助:

示例代码的最后一部分包括模型保存/加载:

model_path = temp_path + "/bkm_model"
model.save(model_path)
model2 = BisectingKMeansModel.load(model_path)
它也适用于hdfs,但在保存模型之前,请确保temp_path/bkm_model文件夹不存在,否则会出现错误:

(java.io.IOException: Path <temp_path>/bkm_model already exists)
(java.io.IOException:Path/bkm\u模型已存在)

您是否尝试过使用
save
still?在pyspark.mllib中,平分Kmeans没有保存/加载功能。在pyspark ml中,平分Kmeans具有保存/加载功能