Python 3.x 转换组合是否会影响PySpark中的操作执行时间？_Python 3.x_Apache Spark_Pyspark_Apache Spark Sql

Python 3.x 转换组合是否会影响PySpark中的操作执行时间？

python-3.x apache-spark pyspark

Python 3.x 转换组合是否会影响PySpark中的操作执行时间？,python-3.x,apache-spark,pyspark,apache-spark-sql,Python 3.x,Apache Spark,Pyspark,Apache Spark Sql,我有一个PySpark代码，它接受多个输入数据帧并生成一个数据帧作为输出。我在DFs上执行许多spark转换（映射、筛选、连接、reducebykey…），但没有spark操作。我执行的唯一操作是在代码末尾（输出df的count（））。代码太长，无法放在这里，但看起来是这样的： df1 = HiveContext.sql("select * from db.table1") df2 = HiveContext.sql("select * from db.table2") ... ... df

我有一个PySpark代码，它接受多个输入数据帧并生成一个数据帧作为输出。我在DFs上执行许多spark转换（映射、筛选、连接、reducebykey…），但没有spark操作。我执行的唯一操作是在代码末尾（输出df的count（））。代码太长，无法放在这里，但看起来是这样的：

df1 = HiveContext.sql("select * from db.table1")
df2 = HiveContext.sql("select * from db.table2")
...
...
dfN = HiveContext.sql("select * from db.tableN")

#map transformation
#join transformations
#filter transformation
...
resultDF.count()

所以我有两个问题： 1.组合多个转换是否会影响PySpark中的操作执行持续时间？ 2.因为我在最后只执行一个操作，所以兑现会提高代码性能吗

谢谢你的帮助

组合多个转换是否会影响PySpark中的操作执行持续时间

对

因为我在最后只执行一个操作，所以兑现会提高代码性能吗

不会，因为在执行某个操作之前，转换是惰性地进行评估的。

谢谢，先生，这是一篇非常有用的文章：）