Apache spark 如何在正在运行的spark流作业中加载新版本的模型/文件

Apache spark 如何在正在运行的spark流作业中加载新版本的模型/文件,apache-spark,apache-spark-sql,spark-streaming,Apache Spark,Apache Spark Sql,Spark Streaming,我有一个sparkML模型,我用它来预测数据流。然而,根据股东的反馈,模型不断更新 模型存储在s3位置。我检查过,结构化流媒体模型在作业开始时从s3位置加载,除非重新启动,否则作业不会注意到在该位置所做的更改 有没有办法在不重新启动流作业的情况下加载新版本?任何帮助都将不胜感激您当前如何在流媒体作业中加载模型并使用它?请添加伪步骤。我正在使用sparkML中的管道来开发模型。这是一个简单的流作业的CrossValidtorModel.save,然后是CrossValidatorModel.rea

我有一个sparkML模型,我用它来预测数据流。然而,根据股东的反馈,模型不断更新

模型存储在s3位置。我检查过,结构化流媒体模型在作业开始时从s3位置加载,除非重新启动,否则作业不会注意到在该位置所做的更改


有没有办法在不重新启动流作业的情况下加载新版本?任何帮助都将不胜感激

您当前如何在流媒体作业中加载模型并使用它?请添加伪步骤。我正在使用sparkML中的管道来开发模型。这是一个简单的流作业的CrossValidtorModel.save,然后是CrossValidatorModel.read.load(Constants.classificationModelPath)。然而,这只会在作业开始时加载模型,除非重新启动流作业,否则不会反映更新。请看,您是在像mapPartitions这样的转换中加载模型,还是在像foreachRDD这样的操作中加载模型?我只是想了解如何在流媒体中使用模型。不,通过结构化流媒体,它可以直接作为CrossValidatorModel类的实例加载。然后可以使用该实例进行预测