Python 从pyspark.ml.pipeline中的管道对象检索转换后的数据集

Python 从pyspark.ml.pipeline中的管道对象检索转换后的数据集,python,apache-spark,pyspark,spark-dataframe,pipeline,Python,Apache Spark,Pyspark,Spark Dataframe,Pipeline,我是Spark ML的新手。我正在尝试使用Spark ML管道来链接数据转换(将其视为ETL过程)。换句话说,我想输入一个数据帧,进行一系列转换(每次向该数据帧添加一列),然后输出转换后的数据帧 我研究了Python中管道的文档和代码,但没有了解如何从管道中获取转换后的数据集。请参见以下示例(从文档中复制并修改): 如何从“pipeline”对象获取转换后的数据集(即,执行标记器和散列后的数据集?您不能。而是保留模型 model = pipeline.fit(training) 并使用它来转换

我是Spark ML的新手。我正在尝试使用Spark ML管道来链接数据转换(将其视为ETL过程)。换句话说,我想输入一个数据帧,进行一系列转换(每次向该数据帧添加一列),然后输出转换后的数据帧

我研究了Python中管道的文档和代码,但没有了解如何从管道中获取转换后的数据集。请参见以下示例(从文档中复制并修改):


如何从“pipeline”对象获取转换后的数据集(即,执行标记器和散列后的数据集?

您不能。而是保留模型

model = pipeline.fit(training)
并使用它来转换数据:

training_transformed = model.transform(training)

Thx很多,这就是我要找的!
training_transformed = model.transform(training)