Apache spark 如何"；再培训；Spark中的模型（如果可能）_Apache Spark_Apache Spark Ml

Apache spark 如何"；再培训；Spark中的模型（如果可能）

apache-spark

Apache spark 如何"；再培训；Spark中的模型（如果可能）,apache-spark,apache-spark-ml,Apache Spark,Apache Spark Ml,我试图弄清楚，当新的未知数据可用于训练时，是否有可能对模型进行“再训练”。我的想法是这样的：使用一些数据集进行初始训练并生成模型。然后可以保存该模型以备将来使用（使用write（）.save（）命令）。每次我的程序运行时，我都会调用该模型，而不是通过在相同或类似的数据上对其进行训练来创建新模型（我知道我也可以使用load（）命令加载模型）。然而，我将使用的数据在某一点上必然会发生显著变化，以至于我的模型所做的预测不再那么正确。然而，这并不意味着它是错的。这只是意味着它需要一些调整，这就是“再培

我试图弄清楚，当新的未知数据可用于训练时，是否有可能对模型进行“再训练”。我的想法是这样的：使用一些数据集进行初始训练并生成模型。然后可以保存该模型以备将来使用（使用

write（）.save（）

命令）。每次我的程序运行时，我都会调用该模型，而不是通过在相同或类似的数据上对其进行训练来创建新模型（我知道我也可以使用

load（）

命令加载模型）。然而，我将使用的数据在某一点上必然会发生显著变化，以至于我的模型所做的预测不再那么正确。然而，这并不意味着它是错的。这只是意味着它需要一些调整，这就是“再培训”的含义。我想用我的旧模型和新数据重新训练它，然后再次保存它。在ApacheSpark中可以这样做吗？或者我是否需要仅基于新数据创建新模型？仅供参考，我说的是一个分类模型，更具体地说是关于随机森林或GBT

谢谢

是的：

您可以组合新旧数据，并使用所有可用数据训练新模型

否：

没有使用树模型进行增量训练的选项。您不能只从旧模型开始，然后添加新数据

也许：

您可以创建某种类型的集合模型。仅在新数据上训练新模型，然后使用新旧模型进行预测，并对两者的概率进行加权。它不是内置的，所以您必须自己实现它