Apache spark PySpark:有没有一种方法可以在一个操作中完成.fit()和.transform()?
我正在努力研究如何在PySpark中优化我的.fit()和.transform() 我有:Apache spark PySpark:有没有一种方法可以在一个操作中完成.fit()和.transform()?,apache-spark,pyspark,apache-spark-mllib,Apache Spark,Pyspark,Apache Spark Mllib,我正在努力研究如何在PySpark中优化我的.fit()和.transform() 我有: pipeline = Pipeline(stages=[topic_vectorizer_A, cat_vectorizer_A, topic_vectorizer_B, cat_vectorizer_B, fil_top_a_vect, fil_top_b_vect,
pipeline = Pipeline(stages=[topic_vectorizer_A, cat_vectorizer_A,
topic_vectorizer_B, cat_vectorizer_B,
fil_top_a_vect, fil_top_b_vect,
fil_cat_a_vect, fil_cat_b_vect,
fil_ent_a_vect, fil_ent_b_vect,
assembler])
# Note that all the operations in the pipeline are transforms only.
model = pipeline.fit(cleaned)
# wait 12 hours
vectorized_df = model.transform(cleaned)
# wait another XX hours
# save to parquet.
我见过这样的事情:
vectorized_df = model.fit(cleaned).transform(cleaned)
但我不确定这是否是相同的,或者以某种方式优化了操作无事可做。如果
- stage是一个
(如估计器
),它在计数向量器
管道中进行训练
- stage是一个
(如转换器
),它直接返回哈希函数