Warning: file_get_contents(/data/phpspider/zhask/data//catemap/8/python-3.x/15.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 3.x 转换组合是否会影响PySpark中的操作执行时间?_Python 3.x_Apache Spark_Pyspark_Apache Spark Sql - Fatal编程技术网

Python 3.x 转换组合是否会影响PySpark中的操作执行时间?

Python 3.x 转换组合是否会影响PySpark中的操作执行时间?,python-3.x,apache-spark,pyspark,apache-spark-sql,Python 3.x,Apache Spark,Pyspark,Apache Spark Sql,我有一个PySpark代码,它接受多个输入数据帧并生成一个数据帧作为输出。 我在DFs上执行许多spark转换(映射、筛选、连接、reducebykey…),但没有spark操作。我执行的唯一操作是在代码末尾(输出df的count())。 代码太长,无法放在这里,但看起来是这样的: df1 = HiveContext.sql("select * from db.table1") df2 = HiveContext.sql("select * from db.table2") ... ... df

我有一个PySpark代码,它接受多个输入数据帧并生成一个数据帧作为输出。 我在DFs上执行许多spark转换(映射、筛选、连接、reducebykey…),但没有spark操作。我执行的唯一操作是在代码末尾(输出df的count())。 代码太长,无法放在这里,但看起来是这样的:

df1 = HiveContext.sql("select * from db.table1")
df2 = HiveContext.sql("select * from db.table2")
...
...
dfN = HiveContext.sql("select * from db.tableN")

#map transformation
#join transformations
#filter transformation
...
resultDF.count()
所以我有两个问题: 1.组合多个转换是否会影响PySpark中的操作执行持续时间? 2.因为我在最后只执行一个操作,所以兑现会提高代码性能吗

谢谢你的帮助

  • 组合多个转换是否会影响PySpark中的操作执行持续时间
  • 因为我在最后只执行一个操作,所以兑现会提高代码性能吗

  • 不会,因为在执行某个操作之前,转换是惰性地进行评估的。

    谢谢,先生,这是一篇非常有用的文章:)