Apache spark 如何";再培训;Spark中的模型(如果可能)

Apache spark 如何";再培训;Spark中的模型(如果可能),apache-spark,apache-spark-ml,Apache Spark,Apache Spark Ml,我试图弄清楚,当新的未知数据可用于训练时,是否有可能对模型进行“再训练”。我的想法是这样的: 使用一些数据集进行初始训练并生成模型。然后可以保存该模型以备将来使用(使用write().save()命令)。每次我的程序运行时,我都会调用该模型,而不是通过在相同或类似的数据上对其进行训练来创建新模型(我知道我也可以使用load()命令加载模型)。然而,我将使用的数据在某一点上必然会发生显著变化,以至于我的模型所做的预测不再那么正确。然而,这并不意味着它是错的。这只是意味着它需要一些调整,这就是“再培

我试图弄清楚,当新的未知数据可用于训练时,是否有可能对模型进行“再训练”。我的想法是这样的: 使用一些数据集进行初始训练并生成模型。然后可以保存该模型以备将来使用(使用
write().save()
命令)。每次我的程序运行时,我都会调用该模型,而不是通过在相同或类似的数据上对其进行训练来创建新模型(我知道我也可以使用
load()
命令加载模型)。然而,我将使用的数据在某一点上必然会发生显著变化,以至于我的模型所做的预测不再那么正确。然而,这并不意味着它是错的。这只是意味着它需要一些调整,这就是“再培训”的含义。我想用我的旧模型和新数据重新训练它,然后再次保存它。在ApacheSpark中可以这样做吗?或者我是否需要仅基于新数据创建新模型? 仅供参考,我说的是一个分类模型,更具体地说是关于随机森林或GBT

谢谢

是的

您可以组合新旧数据,并使用所有可用数据训练新模型

没有使用树模型进行增量训练的选项。您不能只从旧模型开始,然后添加新数据

也许

您可以创建某种类型的集合模型。仅在新数据上训练新模型,然后使用新旧模型进行预测,并对两者的概率进行加权。它不是内置的,所以您必须自己实现它