Python 3.x 转换组合是否会影响PySpark中的操作执行时间?
我有一个PySpark代码,它接受多个输入数据帧并生成一个数据帧作为输出。 我在DFs上执行许多spark转换(映射、筛选、连接、reducebykey…),但没有spark操作。我执行的唯一操作是在代码末尾(输出df的count())。 代码太长,无法放在这里,但看起来是这样的:Python 3.x 转换组合是否会影响PySpark中的操作执行时间?,python-3.x,apache-spark,pyspark,apache-spark-sql,Python 3.x,Apache Spark,Pyspark,Apache Spark Sql,我有一个PySpark代码,它接受多个输入数据帧并生成一个数据帧作为输出。 我在DFs上执行许多spark转换(映射、筛选、连接、reducebykey…),但没有spark操作。我执行的唯一操作是在代码末尾(输出df的count())。 代码太长,无法放在这里,但看起来是这样的: df1 = HiveContext.sql("select * from db.table1") df2 = HiveContext.sql("select * from db.table2") ... ... df
df1 = HiveContext.sql("select * from db.table1")
df2 = HiveContext.sql("select * from db.table2")
...
...
dfN = HiveContext.sql("select * from db.tableN")
#map transformation
#join transformations
#filter transformation
...
resultDF.count()
所以我有两个问题:
1.组合多个转换是否会影响PySpark中的操作执行持续时间?
2.因为我在最后只执行一个操作,所以兑现会提高代码性能吗
谢谢你的帮助
不会,因为在执行某个操作之前,转换是惰性地进行评估的。谢谢,先生,这是一篇非常有用的文章:)