Machine learning 在没有Spark上下文的情况下在推理时使用PySpark管道模型
工作流:Machine learning 在没有Spark上下文的情况下在推理时使用PySpark管道模型,machine-learning,pyspark,data-science,apache-spark-ml,inference-engine,Machine Learning,Pyspark,Data Science,Apache Spark Ml,Inference Engine,工作流: 为了预处理原始数据,我们使用PySpark。由于数据的大小,我们需要使用Spark PySpark预处理作业使用管道模型,允许您将预处理逻辑导出到文件 通过管道模型导出预处理逻辑,可以在推理时加载管道模型。像这样,您不需要对预处理逻辑编写两次代码 在推理时,我们更愿意在没有Spark上下文的情况下执行预处理步骤。Spark上下文在推理时是冗余的,它会减慢执行推理所需的时间 我正在研究,但它只支持Scala语言进行推理,而不支持Spark上下文。由于我们使用PySpark,所以最好还
- 为了预处理原始数据,我们使用PySpark。由于数据的大小,我们需要使用Spark
- PySpark预处理作业使用管道模型,允许您将预处理逻辑导出到文件
- 通过管道模型导出预处理逻辑,可以在推理时加载管道模型。像这样,您不需要对预处理逻辑编写两次代码
- 在推理时,我们更愿意在没有Spark上下文的情况下执行预处理步骤。Spark上下文在推理时是冗余的,它会减慢执行推理所需的时间