Machine learning 在没有Spark上下文的情况下在推理时使用PySpark管道模型_Machine Learning_Pyspark_Data Science_Apache Spark Ml_Inference Engine

Machine learning 在没有Spark上下文的情况下在推理时使用PySpark管道模型

machine-learning pyspark

Machine learning 在没有Spark上下文的情况下在推理时使用PySpark管道模型,machine-learning,pyspark,data-science,apache-spark-ml,inference-engine,Machine Learning,Pyspark,Data Science,Apache Spark Ml,Inference Engine,工作流：为了预处理原始数据，我们使用PySpark。由于数据的大小，我们需要使用Spark PySpark预处理作业使用管道模型，允许您将预处理逻辑导出到文件通过管道模型导出预处理逻辑，可以在推理时加载管道模型。像这样，您不需要对预处理逻辑编写两次代码在推理时，我们更愿意在没有Spark上下文的情况下执行预处理步骤。Spark上下文在推理时是冗余的，它会减慢执行推理所需的时间我正在研究，但它只支持Scala语言进行推理，而不支持Spark上下文。由于我们使用PySpark，所以最好还

工作流：

为了预处理原始数据，我们使用PySpark。由于数据的大小，我们需要使用Spark
PySpark预处理作业使用管道模型，允许您将预处理逻辑导出到文件
通过管道模型导出预处理逻辑，可以在推理时加载管道模型。像这样，您不需要对预处理逻辑编写两次代码
在推理时，我们更愿意在没有Spark上下文的情况下执行预处理步骤。Spark上下文在推理时是冗余的，它会减慢执行推理所需的时间

我正在研究，但它只支持Scala语言进行推理，而不支持Spark上下文。由于我们使用PySpark，所以最好还是坚持使用Python语言

问题：有什么好的替代方案可以让您在培训阶段在（Py）Spark中构建管道模型，并允许您使用Python语言重用此管道模型，而不需要Spark上下文