Python 从pyspark.ml.pipeline中的管道对象检索转换后的数据集_Python_Apache Spark_Pyspark_Spark Dataframe_Pipeline

Python 从pyspark.ml.pipeline中的管道对象检索转换后的数据集

python apache-spark pyspark

Python 从pyspark.ml.pipeline中的管道对象检索转换后的数据集,python,apache-spark,pyspark,spark-dataframe,pipeline,Python,Apache Spark,Pyspark,Spark Dataframe,Pipeline,我是Spark ML的新手。我正在尝试使用Spark ML管道来链接数据转换（将其视为ETL过程）。换句话说，我想输入一个数据帧，进行一系列转换（每次向该数据帧添加一列），然后输出转换后的数据帧我研究了Python中管道的文档和代码，但没有了解如何从管道中获取转换后的数据集。请参见以下示例（从文档中复制并修改）：如何从“pipeline”对象获取转换后的数据集（即，执行标记器和散列后的数据集？您不能。而是保留模型 model = pipeline.fit(training) 并使用它来转换

我是Spark ML的新手。我正在尝试使用Spark ML管道来链接数据转换（将其视为ETL过程）。换句话说，我想输入一个数据帧，进行一系列转换（每次向该数据帧添加一列），然后输出转换后的数据帧

我研究了Python中管道的文档和代码，但没有了解如何从管道中获取转换后的数据集。请参见以下示例（从文档中复制并修改）：

如何从“pipeline”对象获取转换后的数据集（即，执行标记器和散列后的数据集？

您不能。而是保留模型

model = pipeline.fit(training)

并使用它来转换数据：

training_transformed = model.transform(training)

Thx很多，这就是我要找的！

training_transformed = model.transform(training)