Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/csharp/258.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark PySpark:有没有一种方法可以在一个操作中完成.fit()和.transform()?_Apache Spark_Pyspark_Apache Spark Mllib - Fatal编程技术网

Apache spark PySpark:有没有一种方法可以在一个操作中完成.fit()和.transform()?

Apache spark PySpark:有没有一种方法可以在一个操作中完成.fit()和.transform()?,apache-spark,pyspark,apache-spark-mllib,Apache Spark,Pyspark,Apache Spark Mllib,我正在努力研究如何在PySpark中优化我的.fit()和.transform() 我有: pipeline = Pipeline(stages=[topic_vectorizer_A, cat_vectorizer_A, topic_vectorizer_B, cat_vectorizer_B, fil_top_a_vect, fil_top_b_vect,

我正在努力研究如何在PySpark中优化我的.fit()和.transform()

我有:

pipeline = Pipeline(stages=[topic_vectorizer_A, cat_vectorizer_A,
                            topic_vectorizer_B, cat_vectorizer_B,
                            fil_top_a_vect, fil_top_b_vect,
                            fil_cat_a_vect, fil_cat_b_vect,
                            fil_ent_a_vect, fil_ent_b_vect,                            
                            assembler])

# Note that all the operations in the pipeline are transforms only.
model = pipeline.fit(cleaned)

# wait 12 hours
vectorized_df = model.transform(cleaned)

# wait another XX hours
# save to parquet.
我见过这样的事情:

vectorized_df = model.fit(cleaned).transform(cleaned)

但我不确定这是否是相同的,或者以某种方式优化了操作

无事可做。如果

  • stage是一个
    估计器
    (如
    计数向量器
    ),它在
    管道中进行训练
  • stage是一个
    转换器
    (如
    哈希函数
    ),它直接返回

矢量器和汇编程序是变压器,对吗?那么为什么.transform()不能立即返回呢?向量器的类别是什么?CountVectorier和VectorAssemblerCountVectorier是一个估计器。它必须是合适的。我猜是因为它必须符合词汇表,对吗?好啊