Machine learning 在没有Spark上下文的情况下在推理时使用PySpark管道模型

Machine learning 在没有Spark上下文的情况下在推理时使用PySpark管道模型,machine-learning,pyspark,data-science,apache-spark-ml,inference-engine,Machine Learning,Pyspark,Data Science,Apache Spark Ml,Inference Engine,工作流: 为了预处理原始数据,我们使用PySpark。由于数据的大小,我们需要使用Spark PySpark预处理作业使用管道模型,允许您将预处理逻辑导出到文件 通过管道模型导出预处理逻辑,可以在推理时加载管道模型。像这样,您不需要对预处理逻辑编写两次代码 在推理时,我们更愿意在没有Spark上下文的情况下执行预处理步骤。Spark上下文在推理时是冗余的,它会减慢执行推理所需的时间 我正在研究,但它只支持Scala语言进行推理,而不支持Spark上下文。由于我们使用PySpark,所以最好还

工作流

  • 为了预处理原始数据,我们使用PySpark。由于数据的大小,我们需要使用Spark
  • PySpark预处理作业使用管道模型,允许您将预处理逻辑导出到文件
  • 通过管道模型导出预处理逻辑,可以在推理时加载管道模型。像这样,您不需要对预处理逻辑编写两次代码
  • 在推理时,我们更愿意在没有Spark上下文的情况下执行预处理步骤。Spark上下文在推理时是冗余的,它会减慢执行推理所需的时间
我正在研究,但它只支持Scala语言进行推理,而不支持Spark上下文。由于我们使用PySpark,所以最好还是坚持使用Python语言

问题: 有什么好的替代方案可以让您在培训阶段在(Py)Spark中构建管道模型,并允许您使用Python语言重用此管道模型,而不需要Spark上下文